Поиск и устранение дублей: причины возникновения и методы обнаружения ошибок

Сергей Анисимов

28 июля, 2016

Идентичный (дублированный) контент на разных страницах сайта может привести к ошибкам индексации и даже свести на нет все усилия по продвижению. Чем опасны дубли, и почему от них стоит избавляться?

Во-первых, если на сайте присутствуют дубли, на них уходит часть статического веса.

Статический вес — это один из важных параметров, влияющих на продвижение сайта в целом и конкретной страницы на сайте в частности. Вес определяется количеством и качеством ссылающихся на страницу документов (в основном, html-страниц, но учитываются еще pdf и doc-файлы, а также другие распознаваемые поисковиками документы с гиперссылками).

Во-вторых, на дубли тратится часть драгоценного краулингового бюджета. Особенно остро эта проблема стоит для крупных информационных и
e-сommerce (онлайн-торговля) проектов.

В интернете триллионы веб-страниц, и каждый день появляются сотни миллионов новых (подумайте, сколько каждый день постов пишется в социальных сетях и блогах!). В этой связи перед поисковыми системами стоит серьезная проблема: как успевать обходить, скачивать и ранжировать все это огромное хозяйство.

Для обхода страниц используются роботы. Поисковый робот («веб-паук», «краулер») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц интернета с целью занесения информации о них в базу данных поисковика. Очевидно, что каким бы мощным и быстрым не был краулер, скачать единовременно все обновления со всех сайтов у него не получится.

Из-за этого паук скачивает сайты постепенно, небольшими «порциями», например, по нескольку десятков или сотен страниц в день. Эти порции на профессиональном сленге и называются краулинговым бюджетом.

По сути бюджет — это то количество страниц сайта, которое обновится в базе поисковика за определенный период. Чем больше бюджет — тем лучше, так как при большом бюджете можно быть уверенным, что все изменения на сайте быстро попадут в базу данных поисковика.

Однако краулинговый бюджет зависит от многих факторов (уровня траста, размера сайта, частоты обновления, тематики, региона...), рассчитывается по специальному алгоритму и самостоятельно увеличиться его на нужную величину довольно сложно.

Поэтому перед сеошниками стоит обратная задача: вместить в имеющий бюджет все изменения, которые произошли на сайте. В ход здесь идет комплекс мер, от удаления дублей до управления индексацией с помощью служебных файлов.

Остается добавить, что получить представление о краулинговом бюджете для вашего сайта можно с помощью статистики, которую предоставляют поисковики в панелях для вебмастеров, или анализа логов вашего сервера.

Во-третьих из-за ошибок в алгоритмах поисковых систем после очередного обновления базы дубль может заменить в выдаче целевую страницу. Разумеется, с проседанием позиций в выдаче. Но даже если проседания позиций не будет, может упасть конверсия (так как целевая страница, как правило, оформляется как посадочная страница, а дубликат — нет). Целевая страница при этом может вообще вывалиться из индекса (нет, ну а зачем держать в базе несколько копий одной и той же страницы? — база-то не резиновая!).

В-четвертых, поисковик, не разобравшись, какой из дублей нужно ставить в выдаче первым, просто понизит обе страницы (и сайт в целом) в результатах выдачи. Последняя ситуация характерна для сайтов, у которых две и более страницы оптимизированы под одни и те же запросы.

Причины возникновения дублей и методы их обнаружения

Причины возникновения дублей могут быть разными:

Дубли штатно или по ошибке генерирует движок сайта. Например, дублями могут быть страница и ее версия для печати, есть дубли главной страницы (site.ru и site.ru/index.php) или одинаковые страницы с разными расширениями (.php и .html).
Дубли возникли из-за невнимательности веб-мастера (после изменения адреса страницы она доступна и по старому, и по новому URL).
Дубли генерируются из-за дизайнерских или контентных особенностей проекта (в интернет-магазинах часто похожие товары отличаются лишь очень кратким описанием или несколькими техническими параметрами).

Для обнаружения дубликатов есть множество эффективных инструментов:

Вебмастера поисковиков. В них есть специальные разделы, показывающие страницы с одинаковым мета-описанием — с высокой долей вероятности это дубли.
С помощью Вебмастеров также можно следить за количеством страниц в индексе: если на сайте нет обновлений, а количество страниц в индексе увеличивается — скорее всего, это дубли.
Расширенный поиск в поисковых системах.
Для Гугля можно использовать site:имя_хоста.
В Яндекс можно смотреть индекс по отдельным разделам с помощью url:имя хоста/категория/* (для этого же можно использовать оператор inurl).
Специальные сервисы и программы. Например, можно воспользоваться программой XENU (с ее помощью можно и много других вещей определять, например, находить битые ссылки), а также некоторыми распространенными сервисами, информацию о которых легко найти в Сети.

Устранение дублей может быть сложным и зачастую требует творческого подхода. Однако есть моменты, которые однозначно стоит проверить — о них мы поговорим в следующих статьях.

Больше информации:

продвижение сайтов
создание продающих сайтов
оставить комментарий к этой статье в ЖЖ.

Тэги

поиск и устранение дублей техническая оптимизация Поисковое продвижение методы продвижения