В настоящее время программа сканирования Google сканирует мой сайт примерно 10 раз в секунду, что приводит к тому, что некоторые из API-интерфейсов Instagram, которые я использую, довольно быстро достигают своих часовых ограничений.
Является ли их способ предотвратить Google Crawl запустить кусок кода PHP? Я все еще хочу, чтобы они сканировали страницы, но не вызывали запросы API.
Поскольку вы хотите, чтобы страница все еще сканировалась, robots.txt
может быть не вариант для вас.
В общем, спросите вы, правильная ли ваша реализация API? Вы должны использовать API для получения некоторых данных или выполнения некоторых операций.
Чего не следует делать, так это запрашивать у API каждого PageView одинаковую информацию. Кэшируйте это вместо этого.
Иногда это нормально, просто кешировать результат в текстовый файл, иногда вы хотите сканировать данные в вашу собственную базу данных.
Если это не вариант для вас, вы можете обнаружить бот Google сюда:
if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
// what to do
}
Дайте хотя бы роботу Google кэшированную версию.
Также обратите внимание, что это проблема не только Googlebot. Там много ботов. И есть также плохие боты, которые изображают из себя обычного пользователя. Также, если у вас большая нагрузка, это тоже может быть проблемой.
Других решений пока нет …