extract — php: получить простой текст из html — simplehtmldom или php strip_tags?

Я смотрю на получение простого текста из HTML. Какой из них выбрать, php strip_tags или же simplehtmldom извлечение открытого текста?

Одним из преимуществ для simplehtmldom является поддержка недействительных HTML, достаточно ли это само по себе?

2

Решение

Вы, вероятно, должны использовать smiplehtmldom по той причине, которую вы упомянули, и что strip_tags также может оставить вас нетекстовыми элементами, такими как javascript или css, содержащимися в блоках script / style

Вы также сможете фильтровать текст из элементов, которые не отображаются (встроенный стиль = отображение: нет)

Тем не менее, если HTML достаточно прост, то strip_tags может быть быстрее и будет выполнять ту же задачу

3

Другие решения

strip_tags для этого достаточно.

9

Извлечь текст из HTML сложно, поэтому лучше всего использовать такую ​​библиотеку, как Html2Text. Он был построен специально для этой цели.

https://github.com/mtibben/html2text

Установить с помощью composer:

composer require html2text/html2text

Основное использование:

$html = new \Html2Text\Html2Text('Hello, &quot;<b>world</b>&quot;');

echo $html->getText();  // Hello, "WORLD"
1

Если вы просто хотите, чтобы страница отображалась простым текстом, то strip_tags быстрее и проще. Однако, если вы хотите сделать какие-либо манипуляции с текстом во время этого процесса, simplehtmldom поможет вам лучше в долгосрочной перспективе.

0

Вы также можете удалить косые черты полоски ()

0
По вопросам рекламы [email protected]