У меня возникла проблема, когда я не могу сканировать контент с веб-сайта, который содержит контент из формы php. Я предполагаю, что это проблема, поскольку все другие страницы сканируются без проблем. Я использую Nutch 1.11 и Apache Solr 5.4.1 для индексации просканированных документов. Единственный текст, который получает индекс, это стандартный текст из ссылок меню и т. Д. Весь текст никогда не анализируется.
В настоящее время я пытаюсь сделать это только с конфигами по умолчанию, за исключением тех, которые разрешают выполнение php-запроса в URL-адресе, поэтому допускаются такие символы, как «? =», Кроме этой, это все настройки по умолчанию.
Если кто-то может понять, почему это так, я действительно ценю это, я не могу найти это как проблему где-либо в Интернете.
Ниже приведен пример сайта, на котором я не могу получить основной текст для извлечения и анализа.
https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school = 21
Я просмотрел журналы, и там написано, что он проанализировал URL. Что ему удается извлечь текст меню, но только не основной контент. И, как я уже сказал, все остальные страницы домена могут быть извлечены без проблем.
Вообще говоря, URL-адреса запросов по умолчанию игнорируются, потому что они могут сильно повлиять на просканированный веб-сайт (так как URL-адрес запроса обычно динамически генерируется из хранилища данных / базы данных), чтобы исправить это, проверьте файл, в который вы поместили регулярные выражения для ваших белых списков, и там будет комментарий, явно говорящий о шаблоне URL, который принят — и это нужно будет изменить, чтобы учесть URL-адреса запроса (URL-адреса с? в нем).
Интересующий файл называется: REGEX-URLFILTER.TXT
и будет иметь:
# regex-urlfilter.txt
+^http://www.example.com/browse
-[?]
содержание в
интересный блог по этому вопросу: https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ — я не связан
Других решений пока нет …