Поиск и устранение дублей: robots.txt

Сергей Анисимов

31 июля, 2016

Robots.txt — это специальный служебный файл, расположенный в корневом каталоге сайта. В нем можно указать поисковым роботам, какие страницы и данные не следует индексировать.

Файл robots.txt — незаменимый помощник в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Обязательно создайте этот файл в соответствии с рекомендациями поисковых систем. С его помощью вы сможете помочь поисковым паукам корректно индексировать ваш сайт.

Перечислим основные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
— страницы пагинаций, фильтраций и сортировок с дублированным контентом,
— страницы с UTM-метками,
— результаты поиска,
— тестовые страницы, поддомены и серверы,
— RSS-фиды.

Перечислим основные разделы и страницы с малоинформативным и служебным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
— служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, модули, подгружаемые на страницы, и другие технические страницы,
— страницы авторизации, смены и напоминания пароля,
— висячие узлы (то есть страницы, с которых нет ссылок на другие страницы сайта, например, версия страницы для печати),
— страницы совершения действия вида (добавления в корзину, оформления заказа и пр),
— страницы с динамическими параметрами;
— неинформативные или пустые doc- и pdf файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.

Понятно, что приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и мусорные страницы и запрещать их к индексации.

Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.

Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.

Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковиков, и от пользователей.

Также в файле robots.txt следует указать:
— ссылку на карту сайта с помощью директивы Sitemap
— главное зеркало с помощью директивы Host.

Остается добавить, что для анализа корректности файла роботс нужно воспользоваться валидаторами Яндекса и Гугля.

Больше информации:

продвижение сайтов
создание продающих сайтов
оставить комментарий к этой статье в ЖЖ.

Тэги

поиск и устранение дублей техническая оптимизация Поисковое продвижение методы продвижения