1&1 хостинг покидает Польшу, мою страну со своими услугами, поэтому они сказали каждому своему клиенту переехать. Поскольку нет возможности экспортировать веб-сайт, мне нужно проанализировать его вручную и получить нужные данные.
В основном это собирается экспортировать все статьи с вложенными изображениями.
Я пытаюсь манипулировать HTML с этого сайта: http://www.naszeiganie.org/lata-2014-2015/ иметь каждый пост в отдельности div
элемент, чтобы правильно проанализировать весь документ и получить смешанные данные, которые есть в статьях.
Я понял, что каждая статья начинается с:
<div class="n module-type-header diyfeLiveArea ">
<h2>
<span class="diyfeDecoration">
и нет повторяемого конца «статьи». Фактически, следующий пример кода выше говорит мне, что текущий пост заканчивается, а новый начинается.
function smi_parse_web(){
$url = 'http://www.naszeiganie.org/lata-2014-2015/';
$content = file_get_contents($url);
$doc = new DOMDocument();
libxml_use_internal_errors(true);
$doc->loadHTML($content);
libxml_clear_errors();
$finder = new DomXPath($doc);
$node = $finder->query('//div[contains(@class,"module-type-header")]/h2');
foreach($node as $anchor){
if($anchor->nodeName == 'h2')
{
$element = $doc->createElement('div', 'x');
$element->setAttribute('class','DIV-WRAP');
$element->insertBefore($anchor);
}
}
echo $doc->saveHTML();
Я разобрался примерно так, но эффекта нет. Найденный $anchor
очищает его содержание
Моя цель найти все содержимое HTML между одним и другим div > h2
сочетание и завернуть его в div.wrap
Что бы вы предложили сделать, чтобы продолжить работу над проектом? Может быть, я ошибся, пока самый простой путь на моей руке?
Большое спасибо!
(Я знаю, как обращаться с изображениями, но я хочу, чтобы они были прикреплены к каждой загруженной статье)
Задача ещё не решена.
Других решений пока нет …