Я искал парсер HTML и придумал аккуратный.
Дело в том, что теперь, когда я установил его, я не могу найти, как убрать все теги HTML (а также функцию javascript, если это возможно).
Пример кода превращает html в XHTML, и у меня появляется ощущение, что я скачал неподходящий пакет, не смог найти ни одной документации / руководств, которые бы это объясняли.
Любые предложения о том, как это можно сделать с помощью приборки?
РЕДАКТИРОВАТЬ:
Как я понял, tidy — это синтаксический анализатор HTML, и я пытаюсь достичь только простого теста, т.е. <h3>Test</h3>
придет в Test
Tidy в основном используется для очистки HTML-страниц. Вы можете отправить вывод Tidy в libxml ++ для анализа сгенерированного XHTML.
Рабочий пример использования libxml ++ смотрите по этой ссылке.
Разбор XHTML с использованием libxml ++ Вы можете использовать один из 3 парсеров для разбора строки и получения только текста без каких-либо тегов.