robots.txt в codeigniter — разрешить просмотр / функцию

Я прочитал немного о robots.txt и прочитал, что я должен запретить все папки в моем веб-приложении, но я бы хотел, чтобы боты могли читать главную страницу и одно представление (например, URL-адрес: www.mywebapp / searchresults — это codeigniter route — вызывается из приложения / контроллера / функции).

Структура папки, например:

-index.php(should be able to read by bots)
-application
-controllers
-controller(here is a function which load view)
-views
-public

Должен ли я создать robots.txt так:

User-agent: *
Disallow: /application/
Disallow: /public/
Allow: /application/controllers/function

или используя маршруты что-то вроде

User-agent: *
Disallow: /application/
Disallow: /public/
Allow: /www.mywebapp/searchresults

или, может быть, используя представления?

User-agent: *
Disallow: /application/
Disallow: /public/
Allow: /application/views/search/index.php

Спасибо!

1

Решение

Вы не блокируете файл представления, так как он не доступен непосредственно сканерам. Вам нужно заблокировать URL, который используется для доступа к вашему представлению

Файл robots.txt ДОЛЖЕН быть помещен в корневой каталог документа хоста. Это не будет работать в других местах.

If your host is www.example.com, it needs to be accessible at http://www.example.com/robots.txt

Чтобы удалить каталоги или отдельные страницы вашего сайта, вы можете поместить файл robots.txt в корень вашего сервера. При создании файла robots.txt необходимо учитывать следующее: При выборе страниц для сканирования на конкретном хосте. , Googlebot будет подчиняться первой записи в файле robots.txt с User-agent, начинающимся с «Googlebot». Если такой записи не существует, она выполнит первую запись с помощью User-agent’а«Кроме того, Google ввел повышенную гибкость в стандарт файла robots.txt благодаря использованию звездочек. Запрещенные шаблоны могут включать в себя»«, чтобы соответствовать любой последовательности символов, и шаблоны могут заканчиваться на» $ «, чтобы указать конец имени.

To remove all pages under a particular directory (for example, listings), you'd use the following robots.txt entry:

User-agent: Googlebot
Disallow: /listings
To remove all files of a specific file type (for example, .gif), you'd use the following robots.txt entry:

User-agent: Googlebot
Disallow: /*.gif$
To remove dynamically generated pages, you'd use this robots.txt entry:

User-agent: Googlebot
Disallow: /*?
Option 2: Meta tags

Another standard, which can be more convenient for page-by-page use, involves adding a <META> tag to an HTML page to tell robots not to index the page. This standard is described at http://www.robotstxt.org/wc/exclusion.html#meta.

To prevent all robots from indexing a page on your site, you'd place the following meta tag into the <HEAD> section of your page:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

To allow other robots to index the page on your site, preventing only Search Engine's robots from indexing the page, you'd use the following tag:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

To allow robots to index the page on your site but instruct them not to follow outgoing links, you'd use the following tag:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

для дальнейшего использования

https://www.elegantthemes.com/blog/tips-tricks/how-to-create-and-configure-your-robots-txt-file

0

Другие решения

Ответьте на мой старый вопрос:

Когда мы хотим разрешить ботам читать некоторые страницы, нам нужно использовать наш URL (маршрутизация), поэтому в этом случае:

Allow: /www.mywebapp/searchresults

В некоторых случаях мы также можем запретить некоторые страницы по тегу HTML (добавить в заголовок):

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Когда мы хотим заблокировать какую-то папку, то есть картинки, просто сделайте:

Disallow: /public/images
0

По вопросам рекламы [email protected]