В настоящее время я редактирую свой Robots.txt, который выглядит следующим образом:
User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml
Мне интересно, как правильно сделать несколько вещей, однако.
1) Будет ли это правильно блокировать доступ поисковых систем к форуму?
Disallow: /viewforum.php?f=146
Я хотел, чтобы одна область была скрыта от поисковых систем, а остальные разделы форума читались как обычно.
2) Как вы блокируете доступ к внутренним папкам PHPBB и не допускаете администраторов к поисковым системам? эти правила верны?
Disallow: /adm/*
Disallow: /download/*
3) Правильно ли работают правила для файлов php?
Disallow: /ucp.php
Также есть что-нибудь еще, что я должен знать или сделать?
Линия
Disallow: /viewforum.php?f=146
запрещает сканирование URL-адресов, чьи пути начать с /viewforum.php?f=146
,
Таким образом, URL-адреса, подобные этим, запрещены для сканирования:
http://example.com/viewforum.php?f=146
http://example.com/viewforum.php?f=1461
http://example.com/viewforum.php?f=146a
http://example.com/viewforum.php?f=146/foo
http://example.com/viewforum.php?f=146&bar
(Это работает так же для /ucp.php
, /adm/
, а также /download/
, конечно. Обратите внимание, что это означает, что добавленный *
не требуется, если только он не является частью URL.)
Так что, если обзор форума на http://example.com/viewforum.php?f=146
будет заблокирован. Однако обратите внимание, что это может быть случай, когда одна и та же страница доступна с другого URL, например, что-то вроде: http://example.com/viewforum.php?someOtherParameter&f=146
Также обратите внимание, что это не обязательно блокирует сканирование тем форума в этой области форума (потому что они обычно не начинаются с этого пути). Хотя соответствующие боты не будут сканировать эту страницу форума, они могут найти ссылки на темы в другом месте.
Вы можете только запретить каталоги через robots.txt, но не файлы.
Сначала удалите звездочки из каталогов.
Disallow: /adm/
Disallow: /download/
Что касается файлов, вы можете добавить это к < HEAD> раздел. Это не помешает боту извлекать, но хорошие боты должны игнорировать его и двигаться дальше.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">