Оптимальный robots.txt для WordPress


WordPress, один из самых популярных движков, на базе которого создаются миллионы блогов, по умолчанию лишен такого важного элемента как файл robots.txt. Стало быть, необходимо его создать. А знаете, почему?

Потому что robots.txt в WordPress (да и в любом другом движке) отвечает за то, куда допускать поисковые системы, а куда — нет. Дело в том, что если не объявить поисковой машине определенные правила поведения на сайте, она проиндексирует всё и вся, даже скрытые и просто излишние страницы, которые видеть в выдаче вы не желаете. А ведь когда надо — поисковика не дозовешься, не индексирует и всё тут. Ну да ладно.

Как же работает файл robots.txt? Он содержит строки, начинающиеся на «Disallow» — именно они указывают на файлы и каталоги, которые требуется защитить от индексации. И если, например, теги rel=»nofollow» поисковики могут и проигнорировать, скушав ссылку, которую индексировать их не просили, то в случае с robots.txt действуют жесткие и непоколебимые законы. Если какая-либо страница запрещена к индексации, то в индекс ей не попасть, как ни старайся. До тех пор, пока она записана в данном файле.

Пример robots.txt для WordPress

В принципе, можно прописать правила для каждого поисковика отдельно, но подавляющее большинство поисковых роботов функционируют вполне стандартно, равняясь на Google. Поэтому первая часть нашего robots.txt будет выглядеть так:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: /xmlrpc.php
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
Sitemap: http://ssvarentsov.ru/sitemap_index.xml

Отдельно в самом конце файла можете прописать параметр Host специально для Яндекса:

Host: ssvarentsov.ru

Поясню подробнее, что же мы сделали. Строка User-agent указывает на то, что поисковая система может быть любая. Строки Disallow запрещают индексировать различные файлы и каталоги, в том числе по маскам.

Будь то страницы категорий, архивы авторов или каталог с плагинами — в любом случае в индексе они не нужны. В открытом доступе должны быть только статьи и статические страницы, это очевидно.

Например, все файлы с вопросительным знаком в названии — обычно движок не содержит в таких файлах полезного контента.

Наконец, в строке «Sitemap», отстоящей на одну строку от последнего Disallow, указывается абсолютный путь к карте сайта.

Далее нужно отметить, что Яндекс ведет себя не так, как большинство поисковых систем. Робот Яндекса ищет строку, начинающуюся на «Host», так как в ней указывается основной адрес сайта, будь он с www в начале или без — указывается тот вариант, который наиболее приемлемый для владельца. Если не добавлять эту строку, Яндекс может приписать к домену дополнительно www в начале, что не совсем благоприятно сказывается на SEO.

Беда в том, что поисковый робот Яндекса не видит дальше этой строки, поэтому она должна быть в самом конце файла robots.txt для WordPress. Ради этого, а также в расчете на ситуацию, когда вам понадобится изменить еще какое-нибудь правило для поисковой машины, можете добавить в конец получившегося robots.txt этот дополнительный блок.

Разумеется, мои данные в строках «Sitemap» и «Host» замените на свои. К слову, данный файл не редактируется из админки WordPress, для его правки вы должны подключиться к серверу по FTP и проводить все операции из FTP-клиента. Ну и редактировать конечно не в Блокноте, а как минимум в Notepad++. А еще лучше в любом редакторе под Linux, например, Kate, Gedit… Формат окончания строки и кодировку выставляйте в соответствии с настройками сервера. Как правило, окончание строки как в unix, а кодировка UTF-8 (Юникод).


Понравилась запись? Поделитесь :)
Социальные комментарии Cackle