HTML — манипулировать DOMDocument с переполнением стека

1&1 хостинг покидает Польшу, мою страну со своими услугами, поэтому они сказали каждому своему клиенту переехать. Поскольку нет возможности экспортировать веб-сайт, мне нужно проанализировать его вручную и получить нужные данные.

В основном это собирается экспортировать все статьи с вложенными изображениями.

Я пытаюсь манипулировать HTML с этого сайта: http://www.naszeiganie.org/lata-2014-2015/ иметь каждый пост в отдельности div элемент, чтобы правильно проанализировать весь документ и получить смешанные данные, которые есть в статьях.

Я понял, что каждая статья начинается с:

<div class="n module-type-header diyfeLiveArea ">
<h2>
<span class="diyfeDecoration">

и нет повторяемого конца «статьи». Фактически, следующий пример кода выше говорит мне, что текущий пост заканчивается, а новый начинается.

function smi_parse_web(){
$url = 'http://www.naszeiganie.org/lata-2014-2015/';
$content     = file_get_contents($url);
$doc         = new DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTML($content);
libxml_clear_errors();
$finder = new DomXPath($doc);
$node   = $finder->query('//div[contains(@class,"module-type-header")]/h2');
foreach($node as $anchor){
if($anchor->nodeName == 'h2')
{
$element = $doc->createElement('div', 'x');
$element->setAttribute('class','DIV-WRAP');
$element->insertBefore($anchor);
}
}
echo $doc->saveHTML();

Я разобрался примерно так, но эффекта нет. Найденный $anchor очищает его содержание

Моя цель найти все содержимое HTML между одним и другим div > h2 сочетание и завернуть его в div.wrap

Что бы вы предложили сделать, чтобы продолжить работу над проектом? Может быть, я ошибся, пока самый простой путь на моей руке?

Большое спасибо!

(Я знаю, как обращаться с изображениями, но я хочу, чтобы они были прикреплены к каждой загруженной статье)

0

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

По вопросам рекламы ammmcru@yandex.ru
Adblock
detector