сделать поиск в Google программно и обработать результаты

Я хочу сделать поиск в Google, используя php или node.js … Я еще не решил, что это зависит от того, какой ответ на этот вопрос легче реализовать (остальное, что я хочу сделать, легко на обоих языках ).

После проведения этой консультации я хочу обработать результат, получить ссылки, количество результатов (только с количеством результатов может быть здорово) …

Поиск для изображения URL.

Любое предложение??

-3

Решение

Google внедрил множество мер безопасности, чтобы гарантировать, что его поисковая система не может быть очищена. Однако Google все равно должен работать, вот и весь смысл. Так что лучший способ сделать Google Scraping, который я нашел, — это управлять настоящим веб-браузером.

Есть Selenium, если вы хотите пойти по этому пути. Однако я предпочитаю, чтобы мои программы были автономными, а не зависели от установленного веб-браузера (большинство моих программ я запускаю на автономных серверах). Поэтому я предпочитаю использовать phantomjs который представляет собой полнофункциональный браузерный браузер (например, Safari и Konqueror), управляемый javascript.

Скрипты Phantomjs, как правило, многословны, поэтому большинство людей используют его с оберткой, такой как casperjs, node-horseman или nightmarejs (их намного больше, ищите npm).

Вот пример очистки Google с веб-страницы узла-всадника:

var Horseman = require('node-horseman');
var horseman = new Horseman();

var numLinks = horseman
.open('http://www.google.com')
.type('input[name="q"]', 'github')
.click("button:contains('Google Search')")
.waitForNextPage()
.count("li.g");

console.log("Number of links: " + numLinks);

horseman.close();

Если вы знаете, как проверять страницу с помощью инструментов разработчика, вы будете знать, как написать скребок с помощью phantomjs.


Одно слово предупреждения. Не загружайте поиск Google слишком часто, иначе Google, вероятно, обнаружит ваш скрипт как бот и временно забанит вас. Убедитесь, что вы ожидаете соответствующее количество времени между поисками.

3

Другие решения

Вы должны использовать прокси, чтобы избежать запрета. Частные прокси работают лучше, чем больше у вас есть, тем быстрее вы можете очистить, 10-50 с задержкой или низким числом потоков. Если вы можете позволить себе 100+, то вы действительно можете летать

0

По вопросам рекламы [email protected]