Я хочу очистить несколько веб-сайтов, которые, по-видимому, отображаются с использованием JavaScript. Чтобы быть конкретным, я хочу ориентироваться на этот сайт: http://cve.mitre.org/find/index.html
Это мой код:
$client = new Client();
$crawler = $client->request('GET', 'http://cve.mitre.org/find/index.html');
$form = $crawler->selectButton('Search')->form();
$crawler = $client->submit($form, array('search' => 'Symphony'));
print $crawler->html();
Если я просматриваю исходный код, я не вижу HTML, потому что этот запрос выполняется с помощью JavaScript, поэтому кто-нибудь знает, как очистить такие сайты?
Этот сайт использует ленивый «пользовательский поиск Google» вместо того, чтобы реализовывать свой собственный, что означает, что сайт поставляется со всеми видами JavaScript-лжи.
Похоже, что настоящий поиск может быть выполнен с помощью традиционной отправки формы, вам просто нужно опубликовать в форме, используя элементы, которые отображает Google. Тем не менее, это может быть не так просто, так как Google может проверять источники и так далее, и в любом случае предотвращать это.
У вас есть несколько вариантов, я думаю:
domain:cve.mitre.org
при необходимостиЭто ссылка на очень похожий вопрос. Короче говоря, вам нужен безголовый браузер, который поддерживает javascript: