Файл Sitemap.xml

Настройка адресации Оптимизация пагинации: снижение уровня вложенности

Sitemap.xml — это служебный файл в формате XML, который позволяет сообщить поисковикам информацию о том, как организованы данные на вашем сайте. В нем содержатся ссылки на все разделы и страницы, которые должны быть проиндексированы поисковыми системами.

Как правило, sitemap.xml на больших или часто изменяющихся сайтах генерируется на лету (так как этот процесс легко автоматизировать). Реальный адрес файла sitemap.xml вовсе не обязан быть site.ru/sitemap.xml, а может быть абсолютно любым, например, site.ru/anything (хотя лучше, конечно, чтобы у карты сайта был осмысленный адрес).

Поисковые роботы регулярно скачивают этот файл, сравнивают его с имеющейся у них версией и, если файлы отличаются (например, в скачанной версии добавились новые ссылки), индексируют изменения на сайте.

Помимо новых ссылок, файлы Sitemap помогают передать поисковику метаданные о страницах сайта. Например, можно указать дату последнего изменения, периодичность обновления контента и важность страницы на сайте по сравнению с другими разделами.

Существуют отдельные виды файлов Sitemap для разных типов контента, включая видео, изображения и материалы для мобильных устройств. Для абсолютного большинства веб-проектов такие специальные файлы Sitemap генерировать нет смысла. Например, Sitemap для изображений не нужен, если изображения на сайте неуникальные или их немного. Но если в вашем проекте это актуально, рекомендуется разработать в системе функционал, позволяющий автоматически генерировать и обновлять соответствующие документы.

Нужен ли файл sitemap.xml для вашего проекта?

Некоторые коллеги-сеошники придерживаются мнения, что файл sitemap.xml не нужен для большинства сайтов. Якобы, структуру сайта нужно делать настолько простой и удобной, чтобы поисковые роботы смогут без проблем добраться до любой страницы сайта и проиндексировать ее.

Такая структура гораздо лучше подходит не только для поисковиков, но и для пользователей. Им становится проще пользоваться сайтом, что улучшает поведенческие факторы ранжирования (такие как количество и глубина переходов, время на сайте и пр). Исключение составляют масштабные информационные и e-commerce проекты, где просто-напросто слишком много страниц, и сделать их все относительно легкодоступными не всегда представляется возможным.

С тем, что структуру ресурса нужно делать удобной, никто не спорит (подробнее мы поговорим об этом в главе про структурную оптимизацию сайта). К тому же, если страницы сайта корректно и полно связаны друг с другом, робот сможет рано или поздно обнаружить все материалы. Однако я все равно рекомендую настраивать sitemap.xml для всех сайтов.

Sitemap.xml является слабым сигналом качества сайта и повышает уровень траста сайта. Даже для небольших проектов он способен помочь поисковикам более точно и оперативно индексировать все изменения на сайте. Лишним уж точно не будет!

Кроме того, Sitemap однозначно нужен в случае, если:

  • Размер сайта очень велик. В этом случае роботы могут неделями и месяцами добираться до созданных или измененных разделов.
  • Сайт содержит большой архив страниц, которые не связаны друг с другом. Чтобы они были успешно просканированы, их можно перечислить в файле Sitemap. При этом отмечу, что не связанные или слабо связанные страницы скорее всего все равно выпадут из индекса из-за маленького статического веса (на такие страницы стоит мало ссылок) и плохих поведенческих факторов (такие страницы не посещают пользователи.

По этой причине, например, не всегда удается удержать в индексе поисковика карточки старых товаров. Самих товаров уже нет и не будет в наличии (сняты с производства), поэтому карточки удаляются из каталога, но отображаются по прямым ссылкам, чтобы присутствовать в индексе и генерировать хоть малую, но долю трафика.

Чтобы удержать такие странице в индексе поисковиков следует оставить их в каталоге, пусть и на дальних позициях, с пометкой «Нет в наличии» и вариантами товаров-аналогов.

Также проблемы с индексацией могут возникнуть, если ваш сайт создан недавно, и на него указывает мало внешних ссылок. Так как роботы сканируют Интернет, переходя по ссылкам с одной страницы на другую, по причине малого количества ссылок ваш сайт они могут не найти.

Отмечу, что на практике такая проблема почти не встречается — достаточно поставить на новый сайт несколько ссылок из социальных сетей, блогов и других сайтов, и он про индексируется корректно (но sitemap.xml у него настроить все же рекомендую!).

Настройка файла sitemap.xml

При настройке sitemap.xml придерживайтесь простых правил:

  1. Sitemap.xml должен быть автоматически генерируемым. Это избавит вас от необходимости добавлять новые адреса в ручном режиме.
  2. Sitemap.xml должен быть корректным, то есть в нем должны быть только те ссылки, которые представляют интерес для поисковиков и пользователей. Служебные и малоинформативные разделы помещать в карту сайта нет смысла.
  3. Для Sitemap лучше использовать формат XML, так как он позволяет предоставлять дополнительную информацию о страницах сайта. Для каждого URL нужно указать дату последнего обновления страницы (элемент lastmod). Также опциально можно указать частоту изменения страницы (элемент changefreq; слишком высокую частоту обновлений ставить не стоит — помните о краулинговом бюджете, которого на все страницы может не хватить) и относительную значимость страницы (элемент priority; это параметр я использую редко, так как корректно распределить веса самостоятельно бывает проблематично, а этот элемент может влиять на ранжирование страницы).
  4. Sitemap.xml должен обновляться не только при добавлении нового раздела, но и при изменении существующего (меняем lastmod у нужной страницы).
  5. Само собой, файл должен быть валидным, то есть он не должен содержать синтаксических ошибок. Проверить это можно в вебмастерах поисковиков, куда необходимо (в обязательном порядке!) загрузить Sitemap.
  6. Файл должен располагаться на том же домене, что и сайт, для которого он составлен, и отдавать HTTP-статус с кодом 200 OK.
  7. Если Sitemap слишком большой (более 50 000 URL или весит более 10 Мб) нужно разбить его на несколько отдельных файлов, адреса которых указать в файле индекса Sitemap.
  8. В файле нужно использовать кодировку UTF-8.

Остается добавить, что Sitemap.xml не дает гарантий, что роботы будут корректно сканировать и индексировать сайт. Но он точно будет способствовать этим процессам.

Больше информации:

3 августа, 2016

Теги: техническая оптимизация, поисковое продвижение, методы продвижения