Я смотрю на получение простого текста из HTML. Какой из них выбрать, php strip_tags или же simplehtmldom извлечение открытого текста?
Одним из преимуществ для simplehtmldom является поддержка недействительных HTML, достаточно ли это само по себе?
Вы, вероятно, должны использовать smiplehtmldom по той причине, которую вы упомянули, и что strip_tags также может оставить вас нетекстовыми элементами, такими как javascript или css, содержащимися в блоках script / style
Вы также сможете фильтровать текст из элементов, которые не отображаются (встроенный стиль = отображение: нет)
Тем не менее, если HTML достаточно прост, то strip_tags может быть быстрее и будет выполнять ту же задачу
strip_tags
для этого достаточно.
Извлечь текст из HTML сложно, поэтому лучше всего использовать такую библиотеку, как Html2Text. Он был построен специально для этой цели.
https://github.com/mtibben/html2text
Установить с помощью composer:
composer require html2text/html2text
Основное использование:
$html = new \Html2Text\Html2Text('Hello, "<b>world</b>"');
echo $html->getText(); // Hello, "WORLD"
Если вы просто хотите, чтобы страница отображалась простым текстом, то strip_tags быстрее и проще. Однако, если вы хотите сделать какие-либо манипуляции с текстом во время этого процесса, simplehtmldom поможет вам лучше в долгосрочной перспективе.
Вы также можете удалить косые черты полоски ()