Создание сайта        23 июля 2016        534         0

Правильный robots.txt — Яндекса и Гугла

Правильный фаил robots.txt

Доброго времени суток, читатели моего блога. Многие из нас уже сталкивались с внутренней оптимизацией сайта, да и ранее я уже затрагивал эту тему. Однако за одну статью достаточно трудно описать все аспекты этой задачи. Одним из таких аспектов является файл robots.txt, который говорит поисковым системам о том, как именно индексировать вашу площадку. С вами снова Максим Матвеев, а сегодня мы поговорим о составлении robots.txt.


style="display:block"
data-ad-client="ca-pub-1402361887740834"
data-ad-slot="data-ad-slot="1033242315""
data-ad-format="auto">

Содержание:

На самом деле с этим файлом у меня имеется один довольно неприятный опыт. Еще на начале своей карьеры в интернете, я создавал небольшой проект, любительский сайт. Я активно добавлял туда новые материалы, развивал его и расширял семантическое ядро. Хотя большая часть страниц уже была в поисковых системах, я столкнулся с одной проблемой — поисковики ни как не хотели индексировать статьи.

Над этим я бился очень много. Переписывал материалы, подбирал ключи, даже пошел на биржу ссылок в надежде прикупить несколько линков для лучшего продвижения. Напомню, тогда я был совсем зеленый, поэтому даже не думал смотреть в сторону «системных» файлов, коим и считал robots.txt. А зря.

Спустя месяц упорной борьбы мне посоветовали заглянуть в этот файл. Изначально я его просто скопировал с какого-то сайта, даже не разбирая. Проблема в том, что в командах была запрещена индексация раздела «статьи», из-за чего поисковики попросту не могли выйти на них. Вот так из-за невнимательности и небольшой ошибки я потратил целый месяц, но получил бесценный опыт.

Надеюсь, что теперь вам ясна важность этого файла. Он выполняет множество функций, но основная — отмена индексации определенных разделов и страниц. Это позволяет убрать из поиска неугодные вам материалы, что улучшит общие позиции сайта и повысит его траст.

Зачем нужен robots.txt

Фаил robots.txt просто обязателен для сайта

Этот файл играет большую роль в индексации вашего ресурса. Если проигнорировать его, то множество мусорных страниц может выйти в поиск. Такими называются разнообразные системные ссылки, а также дубли. При этом действительно важные компоненты вашего сайта и вовсе могут быть проигнорированы.

Чем страшно попадание мусора в индекс? Он содержит множество неуникального контента, который может использоваться на других площадках либо уже размещен на вашей.

В таком случае может быть несколько печальных последствий:

  • Происходит общая просадка позиций;
  • Дубли занимают места оригинальных страниц.

В первом случае проблема глобальная и в пояснении не нуждается. Во втором же поисковик выбирает из нескольких схожих вариантов один, а остальные пессимизирует. Если среди остальных окажется оригинальная страница, то это приведет к тому, что посетители будут попадать совсем не туда, куда им нужно.

Составление robots позволяет избежать этих проблем. Кроме того, у него есть и другие полезные особенности. К примеру, там указывается ссылка на карту сайта, что позволит ему проверить все нужные страницы.

Поэтому составлять его крайне важно и нужно. Это позволит упростить дальнейший рост ресурса и избежать многих подводных камней на этом пути. Однако нужно сделать правильный robots.txt, чтобы вы не столкнулись с той же ситуацией, которую я описывал чуть ранее.

Основные правила написания robots.txt

robots.txt

Разумеется, что просто так написать «не индексируйте вот этот раздел» не выйдет. Здесь все указывается посредством специальных команд. Благо, их достаточно мало, поэтому запомнить их не составит труда.

С начала нужно отметить, что в роботсе может быть несколько разделов. Каждый из них может быть назначен соответствующей поисковой системе. Это позволяет создавать разные списки команд для различных поисковиков. Для этого в начале списка нужно написать «User-agent: *», где вместо последнего символа указывается имя поискового робота. Если же вы хотите создать общий набор команд, то оставляйте звездочку на этом месте.

Основные названия роботов от Гугла и Яндекса:

  • Googlebot;
  • Yandex;

Думаю, несложно догадаться по названию робота о поисковике, к которому он относится. Можно было упомянуть множество других систем вроде Yahoo и прочих, но эти наиболее часто используются в рунете. На своих проектах у меня нет трафика от других поисковых источников.

Важно отметить, что это названия главных роботов. Но у крупных систем могут быть и другие, которые ответственны, к примеру, для поиска фотографий. Если ваш проект строится на нестандартном контенте, то нужно указать правила и для других роботов.

Далее познакомимся с двумя главными командами, которые будем использовать:

  1. Disallow;
  2. Allow.

Первая используется для запрета индексации страницы или раздела. Вторая же в точности до наоборот — разрешает просмотр роботом страницы или раздела. Лучше запомнить, что указываются они в том формате, в котором показываются в URL (адресной строке).

В качестве примера рассмотрим мой раздел «Для новичка». Если я хочу запретить его индексацию для Яндекса, то мне нужно написать так:

  • User-agent: Yandex
  • Disallow: /dlja-novichka/

Если же я хочу оставить открытым раздел «Платежные системы», то в конце мне достаточно добавить:

  • Allow: /dlja-novichka/platyozhnye-sistemy/

Как видите, все довольно просто. При этом большую роль здесь играет символ «*». Система считывает его как любую последовательность символов. Другими словами, если нам нужно отключить все страницы с окончанием .php, то достаточно написать:

  • Disallow: *.php

Собственно, это основные универсальные команды. Другие зачастую используются к отдельным поисковым системам, в частности к Яндексу. Об этом мы сейчас и поговорим.

Robots.txt для WordPress

Фаил robots.txt WordPress

Различные CMS имеют стандартный набор директорий, что упрощает создание универсального роботса. Особенно важен этот файл для WordPress. У этой платформы имеется множество мусорных директорий и рубрик, которые лучше запретить к индексации.

В качестве универсального роботса для WordPress я рекомендую использовать следующий набор команд:

  • User-agent: *
  • Disallow: /cgi-bin
  • Disallow: /wp-admin
  • Disallow: /wp-includes
  • Disallow: /wp-content/plugins
  • Disallow: /wp-content/cache
  • Disallow: /wp-content/themes
  • Disallow: /trackback
  • Disallow: */trackback
  • Disallow: */*/trackback
  • Disallow: */*/feed/*/
  • Disallow: */feed
  • Disallow: /*?*
  • Disallow: /tag

Здесь запрещаются различные директории для плагинов, тем и прочего. Также здесь идет запрет на индексацию теговых страниц, что могло бы привести к созданию множественных дубликатов. Такой вариант практически наверняка устраняет любые дубли страниц на WordPress. Но если у вас есть свои директории тегов или других разделов, используемых для сортировки, то их тоже нужно добавить в роботс.

Все это достаточно поместить в файл robots.txt, после чего залить его в главную директорию вашего сайта. При первом посещении поисковых систем они примут команды во внимание и будут действовать согласно им.

Также нужно учитывать и индивидуальные команды для поисковых систем. Поэтому отличия между роботсом для Яндекса и Гугла могут быть существенны. Стоит разобрать этот нюанс поподробнее.

Важно! Если у вас не стоит плагин ЧПУ (человекоподобный URL), то необходимо исключить строчку «Disallow: /*?*». Если этого не сделать, то все ваши страницы будут под запретом. Такая команда необходима для сокрытия технических страниц, поэтому по возможности ее стоит оставить.

Robots.txt для Яндекса и Гугла

Мой robots.txt WordPress

Базовый набор команд не имеет особой разницы между поисковыми системами. Однако дополнительные команды, которые были созданы для собственных нужд поисковиков, могут быть использованы лишь по отношению к ним.

Как я говорил ранее, роботс стоит подбирать в соответствии с собственной структурой сайта и CMS. Что же касается поисковых систем, для Яндекса здесь стоит добавить следующую команду:

  • Host: site.ru

Где на месте «site.ru» — ваш сайт. Это позволяет установить главное зеркало площадки и устранить дубли между разными зеркалами.

Далее для всех систем рекомендуется добавить команду:

  • Sitemap: *

Где на месте «*» нужно указать полный адрес, по которому располагается ваша карта сайта. Карта крайне важна для нормальной индексации, поэтому не стоит пренебрегать этим нюансом.

Что же касается Google, здесь практически нет никаких требований. Этот поисковик использует лишь стандартные команды и не использует индивидуальных методов написания robots.txt.

Это все, что стоит знать новичку о создании robots.txt. Также для анализа ошибок и минусов этого файла можно использоваться инструментами в Яндекс Вебмастер. Это существенно облегчит настройку индексации и позволит избежать дальнейших проблем с ней.

А как вы составляете robots.txt? Что можете посоветовать для устранения дублей? Расскажите о своем опыте в этом направлении.

С вами был Максим Матвеев. Развивайте свой ресурс и не останавливайтесь на достигнутом. А также подписывайтесь на мой блог для прочтения новых статей.


Сталин факты


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Нажав на кнопку - "Отправить комметарий", тем самым вы соглашаетесь с правилами сайта и с его политикой конфиденциальности, вся информация ниже по ссылкам.

Пользовательское соглашение. и Политика конфиденциальности.

Автор блога Максим Матвеев
Создание сайта на заказ
ФОРМА ПОДПИСКИ
Ключи для ПК
Онлайн школа - Зона Блоггеров