Python Scraping ссылки из результатов поиска

Я пытаюсь сгенерировать / получить список ссылок на новости из поиска по ключевым словам с новостного сайта с использованием Python. Для поиска в Google я знаю, какое использование
Запросы, но в то время как страница поиска Google имеет свой собственный адрес ссылки (т.е. https://www.google.dz/search?q=keyword), некоторые сайты не передают ключевые слова через веб-адрес.

Первый — например, в http://english.hani.co.kr/ , пользователи попадают на страницу результатов поиска http://search.hani.co.kr/Search со списком ссылок независимо от того, какое ключевое слово они вводят (Korea Times это еще один пример). Таким образом, все еще возможно использовать библиотеку Python для извлечения этих ссылок?

Второе — в двух предыдущих и многих других случаях (например, этот), результаты поиска отображаются на сотнях страниц. К каким инструментам и методам я должен обратиться, чтобы составить полный список ссылок на новости?

1

Решение

Есть две основные задачи, которые используются для очистки веб-сайтов:

  • Загрузить веб-страницу в строку.
  • Разбор HTML с веб-страницы, чтобы найти интересные биты.

Вы можете увидеть более подробную информацию, как это сделать Вот.

Итак, некоторые поисковые машины используют ПОЛУЧИТЬ сделать поиск и другие метод СООБЩЕНИЕ. Для тех, кто использует метод POST, единственный способ — выполнить поиск (не по URL) и получить результаты html для анализа.

Оба способа (GET и POST) вы можете использовать BeautifulSoup.

2

Другие решения

Других решений пока нет …

По вопросам рекламы ammmcru@yandex.ru
Adblock
detector