Ограничение скорости Google Crawl Causing API

Question

Ограничение скорости Google Crawl Causing API

В настоящее время программа сканирования Google сканирует мой сайт примерно 10 раз в секунду, что приводит к тому, что некоторые из API-интерфейсов Instagram, которые я использую, довольно быстро достигают своих часовых ограничений.

Является ли их способ предотвратить Google Crawl запустить кусок кода PHP? Я все еще хочу, чтобы они сканировали страницы, но не вызывали запросы API.

1

api google-crawlers php

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Поскольку вы хотите, чтобы страница все еще сканировалась, robots.txt может быть не вариант для вас.

В общем, спросите вы, правильная ли ваша реализация API? Вы должны использовать API для получения некоторых данных или выполнения некоторых операций.

Чего не следует делать, так это запрашивать у API каждого PageView одинаковую информацию. Кэшируйте это вместо этого.

Иногда это нормально, просто кешировать результат в текстовый файл, иногда вы хотите сканировать данные в вашу собственную базу данных.

Если это не вариант для вас, вы можете обнаружить бот Google сюда:

if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
// what to do
}

Дайте хотя бы роботу Google кэшированную версию.

Также обратите внимание, что это проблема не только Googlebot. Там много ботов. И есть также плохие боты, которые изображают из себя обычного пользователя. Также, если у вас большая нагрузка, это тоже может быть проблемой.

3