Я хочу извлечь данные из веб-страницы, и для этого мне нужна полная HTML-страница.
import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()
Я попробовал библиотеку Python ulrllib2, и после запуска кода моя переменная fullhtml содержит только одну часть страницы, потому что я предполагаю, что некоторые элементы страницы загружаются с помощью javascript после загрузки страницы ..
Есть ли способ дождаться «полной загрузки страницы», я тоже пробовал библиотеку «селен», но не думаю, что это полезно в моем случае.
Если есть решение на другом языке (например, php), я готов изменить язык, чтобы сделать это.
спасибо за разъяснения, и извините за мой английский
Взгляните на это http://phantomjs.org/ . Большинство веб-сайтов основаны на JavaScript, и php или python не могут их выполнять. Я думаю, что эта библиотека будет лучшим, что вы можете получить.
Других решений пока нет …