Я сканирую ссылки с веб-сайта (этот), но структура сайта создает нежелательный дополнительный выход. В основном, <a>
теги имеют название статьи и дополнительную информацию (изображения и источники этих изображений) внутри них. Я хотел бы получить дополнительную информацию. Я нашел : не селектор чтобы сделать это, но я предполагаю, что я реализую это неправильно, потому что каждая комбинация, которую я попробовал, не дает мне никакого результата вообще.
Вот код, который мне нужно изменить:
$posts = $html->find('ul[class=river] a[data-omni-click=inherit] :not[figure]');
(Я тоже пробовал figure:not
и пару других комбинаций)
Кто-нибудь знает, где я ошибся, и что я должен сделать, чтобы исключить <figure>
тег?
Вот мой полный код, не уверен, поможет ли это:
<div class='rcorners1'>
<?php
include_once('simple_html_dom.php');
$target_url = "http://www.theatlantic.com/most-popular/";
$html = new simple_html_dom();
$html->load_file($target_url);
$posts = $html->find('ul[class=river] a[data-omni-click=inherit] :not[figure]');
$limit = 10;
$limit = count($posts) < $limit ? count($posts) : $limit;
for($i=0; $i < $limit; $i++){
$post = $posts[$i];
$post->href = 'http://www.theatlantic.com'.$post->href;
echo strip_tags($post, '<p><a>'); //echo ($post);
}
?>
</div>
</div>
Задача ещё не решена.
Других решений пока нет …