Я работаю над аналитикой и получаю много точных результатов, в основном из-за ботов в социальных сетях или других случайных ботов, таких как BufferBot, DataMinr и т. Д. Из Twitter.
Существует ли какой-либо веб-API / база данных всех известных ботов, которые я могу использовать, чтобы проверить, бот это или человек?
Или есть какой-нибудь хороший способ заблокировать таких ботов, чтобы они не влияли на статистику с точки зрения аналитики?
Вы можете сделать ссылку на скрытую страницу, которая заблокирована robots.txt. При посещении захватывает пользовательский агент и IP-адрес бота, а затем добавляет один или оба из них в файл .htaccess, который навсегда блокирует их. Он только ловит плохих ботов и автоматизирован, поэтому вам не нужно ничего делать для его обслуживания.
Просто убедитесь, что вы сначала настроили файл robots.txt, а затем дайте хорошим ботам реальную возможность прочесть его и соответствующим образом обновить их сканирование.
Создать файл с названием robots.txt
в вашем маршруте и добавьте следующие строки:
User-agent: *
Disallow: /
Невозможно напрямую заблокировать ВСЕХ ботов, это будет безумное количество времени, вы можете использовать файл .htaccess или robots.txt, остановить индексацию сайта Google легко, но блокировка трафика ботов может усложниться и действовать как карточный домик
Я предлагаю использовать этот список сканеров / веб-ботов http://www.robotstxt.org/db.html