Соскреб в Интернете в Google Scholar

Question

Соскреб в Интернете в Google Scholar

Я пытаюсь очистить страницы профиля Google Scholar. Идея состоит в том, что я хочу получить список публикаций с помощью XPath, но я не загружаю страницу, вот мой код:
Я пробовал с curl

function get_page($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET');
//I tried to change user agent as well
//curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1;  en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);
curl_close($ch);
return $response;
}

И без скручивания

function get_xpath($query_url) {
$dom = new DOMDocument();
@$dom->loadHTMLFile($query_url);
sleep(1);
return new DOMXpath($dom);
}

$query_url = "https://scholar.google.it/citations?user=p-POZjgAAAAJ&hl=it&cstart=0&pagesize=100";

Чтобы получить это без скручивания

$xpath = get_xpath($query_url);

Чтобы получить это с завитком

$xpath = get_xpath(get_page($query_url));

А потом

$autori=$xpath->query("//tr[1]/td[1]/div[1]");

Но $ autori продолжает оставаться пустым, любая идея?

0

curl google-scholar php web-scraping

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

Источник