Достаточно ли тегов Robots.txt и метаданных, чтобы поисковые системы не индексировали динамические страницы, зависящие от переменных $ _GET?

Question

Достаточно ли тегов Robots.txt и метаданных, чтобы поисковые системы не индексировали динамические страницы, зависящие от переменных $ _GET?

Я создал страницу php, которая доступна только через токен / пароль, полученный через $ _GET

Поэтому, если вы перейдете на следующий URL, вы получите общую или пустую страницу

http://fakepage11.com/secret_page.php

Однако, если вы использовали ссылку с токеном, она показывает вам специальный контент

http://fakepage11.com/secret_page.php?token=344ee833bde0d8fa008de206606769e4

Конечно, это не так безопасно, как страница входа, но моя единственная задача — создать динамическую страницу, которая не индексируется и доступна только через предоставленную ссылку.

Являются ли динамические страницы, которые зависят от переменных $ _GET, проиндексированными Google и другими поисковыми системами?

Если это так, будет ли включать следующее будет достаточно, чтобы скрыть это?

Robots.txt User-agent: * Disallow: /
метаданные: <META NAME="ROBOTS" CONTENT="NOINDEX">

Даже если я введу в Google:

сайт: fakepage11.com/

Спасибо!

2

get google-crawlers php robots.txt web-crawler

Решение

Другие решения

Если ваша страница недоступна для обнаружения, она не будет проиндексирована.

под «обнаруживаемым» мы подразумеваем:

это стандартная веб-страница, т. е. индекс. *
на него ссылается другая ссылка, либо ваша, либо с другого сайта

Таким образом, в вашем случае, используя параметр get для доступа, вы получаете 1, но не обязательно 2, поскольку кто-то может ссылаться на эту ссылку и, следовательно, на «скрытую» страницу.

Вы можете использовать robots.txt что вы дали, и в этом случае страница не будет проиндексирована ботом, который уважает это (не все будут делать). Не индексация вашей страницы не означает, конечно, что «скрытый» URL-адрес страницы не будет в дикой природе.

Кроме того, другая проблема, в зависимости от ваших требований, заключается в том, что вы используете незашифрованный HTTP, что означает, что ваши «скрытые» URL-адреса и содержимое страниц видны каждому серверу между вашим сервером и пользователем.

Помимо поисковых систем, позаботьтесь о том, чтобы определенные службы кэшировали / разрешали контент при обмене URL-адресами, например, в мессенджере Skype или Facebook. В этом случае они посещают URL-адрес и пытаются извлечь метаданные и, возможно, кэшировать их, если это применимо. Конечно, этот сценарий не раскрывает ваш URL для общего доступа, но он открыт для систем этих служб и для них контента, который вы «скрыли».

ОБНОВИТЬ:
Другая проблема, которую следует рассмотреть, — это раскрытие «скрытой» страницы путем ссылки на другую страницу. В этом случае в журналах сервера, на котором размещен связанный URL-адрес, ваша страница будет рассматриваться как реферальная и, следовательно, будет отображаться, что распространяется также на Google Analytics и т. Д. Таким образом, если вы хотите оставаться скрытным, не делайте ссылки на другие страницы из скрытая страница

1

Источник

Accepted Answer

Если бот поисковой системы каким-либо образом находит ссылку с токеном, он может сканировать и индексировать ее.

Если вы используете robots.txt запретить ползком страница, соответствующая поисковым роботам, не будет сканировать страницу, но они все равно могут индексировать ее URL (который затем может появиться в site: поиск).

Если вы используете meta—robots запретить индексирование страница, соответствующая поисковым роботам, не будет индексировать страницу, но они все равно могут сканировать ее.

Вы не может иметь оба: Если вы запрещаете сканирование, то соответствующие боты никогда не узнают, что вы также запрещаете индексирование, потому что им не разрешено посещать страницу, чтобы увидеть ваши meta—robots элемент.

Search Есть бесчисленное множество способов, как поисковые системы могут найти ссылку. Например, пользователь, который посещает страницу, может использовать панель инструментов браузера, которая автоматически отправляет все посещенные URL в поисковую систему.

1