Robots.txt — это специальный служебный файл, расположенный в корневом каталоге сайта. В нем можно указать поисковым роботам, какие страницы и данные не следует индексировать.
Файл robots.txt — незаменимый помощник в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Обязательно создайте этот файл в соответствии с рекомендациями поисковых систем. С его помощью вы сможете помочь поисковым паукам корректно индексировать ваш сайт.
Перечислим основные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
— страницы пагинаций, фильтраций и сортировок с дублированным контентом,
— страницы с UTM-метками,
— результаты поиска,
— тестовые страницы, поддомены и серверы,
— RSS-фиды.
Перечислим основные разделы и страницы с малоинформативным и служебным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
— служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, модули, подгружаемые на страницы, и другие технические страницы,
— страницы авторизации, смены и напоминания пароля,
— висячие узлы (то есть страницы, с которых нет ссылок на другие страницы сайта, например, версия страницы для печати),
— страницы совершения действия вида (добавления в корзину, оформления заказа и пр),
— страницы с динамическими параметрами;
— неинформативные или пустые doc- и pdf файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.
Понятно, что приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и мусорные страницы и запрещать их к индексации.
Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.
Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.
Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковиков, и от пользователей.
Также в файле robots.txt следует указать:
— ссылку на карту сайта с помощью директивы Sitemap
— главное зеркало с помощью директивы Host.
Остается добавить, что для анализа корректности файла роботс нужно воспользоваться валидаторами Яндекса и Гугля.
Больше информации:
- продвижение сайтов
- создание продающих сайтов
- оставить комментарий к этой статье в ЖЖ.