Как удалить все теги HTML с Tidy

Я искал парсер HTML и придумал аккуратный.
Дело в том, что теперь, когда я установил его, я не могу найти, как убрать все теги HTML (а также функцию javascript, если это возможно).
Пример кода превращает html в XHTML, и у меня появляется ощущение, что я скачал неподходящий пакет, не смог найти ни одной документации / руководств, которые бы это объясняли.

Любые предложения о том, как это можно сделать с помощью приборки?

РЕДАКТИРОВАТЬ:
Как я понял, tidy — это синтаксический анализатор HTML, и я пытаюсь достичь только простого теста, т.е. <h3>Test</h3> придет в Test

0

Решение

Tidy в основном используется для очистки HTML-страниц. Вы можете отправить вывод Tidy в libxml ++ для анализа сгенерированного XHTML.

Рабочий пример использования libxml ++ смотрите по этой ссылке.
Разбор XHTML с использованием libxml ++ Вы можете использовать один из 3 парсеров для разбора строки и получения только текста без каких-либо тегов.

0

Другие решения


По вопросам рекламы [email protected]