Ждите страницу (с javaScript), загружающую и очищающую HTML

Question

Ждите страницу (с javaScript), загружающую и очищающую HTML

Я хочу извлечь данные из веб-страницы, и для этого мне нужна полная HTML-страница.

import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()

Я попробовал библиотеку Python ulrllib2, и после запуска кода моя переменная fullhtml содержит только одну часть страницы, потому что я предполагаю, что некоторые элементы страницы загружаются с помощью javascript после загрузки страницы ..

Есть ли способ дождаться «полной загрузки страницы», я тоже пробовал библиотеку «селен», но не думаю, что это полезно в моем случае.
Если есть решение на другом языке (например, php), я готов изменить язык, чтобы сделать это.

спасибо за разъяснения, и извините за мой английский

-1

php python urllib2 web-crawler web-scraping

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Взгляните на это http://phantomjs.org/ . Большинство веб-сайтов основаны на JavaScript, и php или python не могут их выполнять. Я думаю, что эта библиотека будет лучшим, что вы можете получить.

1