Главная » Wordpress » Правильный robots.txt для движка WordPress – залог успешной индексации блога

Правильный robots.txt для движка WordPress – залог успешной индексации блога

Здравствуйте, в сегодняшней статье мы продолжим тему базовых настроек. В данной статье мы с вами затронем тему настройки файла robots.txt.

Давайте для начала проанализируем, зачем нам нужен этот файл и нужен ли он нам вообще.

Robots.txt – это текстовый файл предназначенный специально для роботов поисковых систем, с помощью которого можно контролировать все процессы индексации на сайте. Если говорить еще проще с помощью этого файла мы можем закрыть от индексации любой раздел нашего сайта, включая ссылки и системные файлы WordPress.

Зачем что-то закрывать с помощью robots.txt, разве WordPress сам не создает все, что ему нужно при установке? Ответ – нет. Вы, как вебместер или блогер, должны сами контролировать все процессы на сайте. В первую очередь в robots.txt скрываются от индексации системные папки, такие как wp-admin, wp-login и прочие. Также, один и тот же материал сайта построенного на WordPress может размещаться под разными урлами (ссылками), что в свою очередь влечет за собой создание дублей. За наличие большого количества дублей поисковые системы могут наложить санкции на ваш проект, а выйти из под них не так уж и легко. Так что старайтесь исправить эту ситуацию еще в самом начале создания сайта.

 Так какой же он правильный robots.txt для WordPress?

Если вы только начинаете свой путь вебмастера, то вам наверняка неизвестны понятия директив: dissalow, allow и других. Сейчас мы с вами пройдемся по основных директивах для того чтобы вы осознанно создавали собственный robots.txt и не писали туда ничего лишнего.

«Useragent

Итак, обычно файл robots.txt начинается с того что задается директива – «User-agent:». Эта директива указывает на имя поискового робота. Так, как вам известно, каждая поисковая система имеет своего робота, а в большинстве случаев их несколько. Для того чтобы подстроить ваш сайт под требования конкретной поисковой системы, мы можем выставить необходимые настройки специально для нее. Так, в рунете наиболее популярными поисковиками являются Яндекс и Google, то отдельные настройки в файле robots.txt, пишутся именно для них.

Для того чтобы задать директивы для Яндекса, стоит писать:

User-agent: Yandex

Для Google она будет иметь следующий вид:

User-agent: Googlebot

В интернете вы можете найти названия роботов и других поисковых систем, если они вдруг вам понадобятся, а так обычно мимо приведенных выше директив, указывается директива:

User-agent: *

В которой * — означает любой текст. То есть, таким образом, мы указываем настройки для всех остальных поисковых роботов. Зачастую этого вполне достаточно.

«Disallow:»

Это директива, которая запрещает поисковому роботу индексировать какую либо часть вашего сайта.

Давайте, для того чтобы было бы более понятно рассмотрим несколько примеров ее применения.

Для того чтобы закрыть какую либо папку в дистрибутиве WordPress от индексирования достаточно прописать:

Disallow: /имя вашей папки

Для вложенных папок ситуация таже:

Disallow: /имя вашей папки/имя вложенной папки

Идем дальше, закрывать от индексации можно и по определенным символам, например «?».

Disallow: /*?*

Таким способом закрываются все ссылки, где встречается «?». В WordPress такие ссылки формируются по умолчанию.

?post=1

Суть, я думаю, понятна. Таким способом можно закрыть комментарии, ленты новостей и прочие разделы сайта.

Будьте внимательны! Если прописать:

Disallow: /

То это полностью закроет ваш сайт от индексации.

«Allow:»

Эта директива имеет суть совершенно противоположную приведенной выше. Как вы поняли, с помощью нее, вы можете разрешить к индексированию какой либо раздел сайта, например:

Allow: / имя вашей папки

«Host:»

Директива хост задается для указания основного зеркала вашего сайта, то есть с www или без, например.

Host: www.вашсайт.com

Зачастую она задается для Яндекса.

«Sitemap:»

И последняя директива, которую мы рассмотрим — «Sitemap:».

Она указывает для поискового робота путь к карте сайта в формате .xml. Пример использования:

Sitemap: http://вашсайт.com/sitemap.xml

Итак, я приведу вам пример файла robots.txt для WordPress, которым пользуюсь я сам. Но под различные проекты я все же его немного изменяю.

User-agent:*Allow: */uploads

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /page/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

User-agent: Yandex

Allow: */uploads

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /page/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

Host: вашсайт.com

Sitemap: http://вашсайт.com/sitemap.xml

Для справки. Файл robots.txt лежит в открытом доступе на любом сайте. Заходите и проверяйте его на популярных блогах,  делайте свои выводы, но смотрите не переборщите!

До следующих уроков.

1 комментарий

  1. А каким должен быть файл robots.txt для магазина на Woocommerce по Вашему мнению?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *