Как извлечь только основной контент с любой веб-страницы? (без нижнего колонтитула, строки меню, панели навигации, нижнего колонтитула, боковой панели, хлебных крошек)

Я извлек содержание всего тела с помощью этого кода.
Но я не знаю, должны ли удалить панель навигации, нижний колонтитул, боковую панель, хлебные крошки.
Кто-нибудь может подсказать мне, как это сделать?

foreach($dom->getElementsByTagName("body")->item(0)->childNodes as $child) {
$bodycontent .= $dom->saveHTML($child); }

2

Решение

Вы могли бы использовать что-то вроде readability, который реализован на многих языках:

-1

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]