Частотные факторы ранжирования

Сергей Анисимов

14 марта, 2020

В данной главе мы разберемся с основными принципами работы частотных факторов ранжирования текстовых документов.

При анализе мы не будем опираться на конкретные формулы. Они сложны и постоянно модифицируются разработчиками поисковых систем, вследствие чего их анализ быстро устаревает. Вместо этого мы выявим общие закономерности, которые лежат в основе алгоритмов ранжирования. Понимание этих закономерностей поможет вам создавать качественные и эффективные тексты, которые будут одинаково хорошо оценены и посетителями вашего сайта, и поисковыми системами.

Основные понятия

Для начала определимся с базовыми понятиями.

TF (term frequency — частота слова) — отношение количества вхождений слова к общему количеству слов в документе. Пример: документ содержит 100 слов, и слово «яблоко» встречается в нём 5 раз. Тогда:

TF («яблоко») = 5/100 = 0,05

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой слово встречается в документах коллекции. IDF часто называют «весом» слова.

Пример: слово «яблоко» содержится в 100 из 10 000 документов коллекции. Вычислим IDF как десятичный логарифм отношения количества всех документов к количеству документов, содержащих слово «яблоко»:

IDF («яблоко») = log (10 000 / 100) = 2

Отметим, что выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

При написании текстов точные значения IDF знать необязательно. Главное понять принцип: чем меньше значение IDF (вес слова), тем более распространено оно в Интернете. В самом деле, если бы слово «яблоко» из примера выше встречалось бы в каждом документе коллекции, то:

IDF («яблоко») = log (10 000 / 10 000) = 0

Другими словами, с помощью IDF поисковые системы выявляют широкоупотребительные слова. Соответственно, чем чаще встречается слово в интернете, тем менее оно значимо для поисковой системы (его вес меньше), и тем менее важно его употребление в тексте. И наоборот, если слово редко употребляется, то его включение в текст может дать значимый вклад в релевантность документа по соответствующим запросам (запросам, содержащим это слово).

TF-IDF — общий критерий частотной релевантности документа поисковому запросу. Это базовый критерий, на основе которого поисковые системы ранжируют тексты на страницах сайтов по релевантности поисковому запросу.

Существуют различные формулы, основанные на критерии TF-IDF. Они включают оба ранее рассмотренных показателя, но отличаются коэффициентами, нормировками, использованием логарифмированных шкал. Одной из наиболее популярных формул является BM25.

BM25 — функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности заданному поисковому запросу. BM25 — это аналог PageRank в текстовом ранжировании, то есть, условно говоря, самая базовая функция, на основе которой поисковые алгоритмы ранжировали текстовые документы на заре становления Интернета.

Сейчас в чистом виде BM25 не используется. Но ее различные более поздние модификации (например, BM25F), представляющие собой современные TF-IDF-подобные (то есть работающие на основе критерия TF-IDF) функции ранжирования, широко используются в поисковых системах.

BM25F — модифицированная функция ранжирования BM25, при которой значение текстовой релевантности по алгоритму BM25 считается по отдельным зонам документа («F» в названии — от англ. field, то есть зона, область). Вычисленные по BM25 значения каждой отдельной зоны входят в формулу ранжирования в качестве отдельных факторов. Перечень анализируемых зон: заголовок страницы, текст документа, текстовые заголовки и фрагменты с акцентами (выделения слов жирным начертанием, цветом, большим шрифтом), тексты исходящих ссылок, URL-адрес.

Мы не будем детально разбираться в формуле BM25, чтобы не загромождать текст ненужными расчетами (gримеры расчетов можно легко найти в Интернете). Как уже отмечалось выше, в чистом виде этот алгоритм не используется. Но из его формулы можно сделать ряд важных для практического продвижения выводов.

Практические рекомендации

Разберем для примера стандартную задачу: вам необходимо написать текст для оптимизации страницы сайта под соответствующий семантический кластер. При составлении технического задания для копирайтера нужно учесть следующие моменты:

Вхождение в текст документа более специфических (менее распространенных в Интернете, то есть имеющих больший вес) ключевых слов сделает документ более релевантным по сравнению с вхождением общераспространенных слов. Общераспространённые слова нужно использовать по минимуму (отжать из текста «воду»), чтобы повысить информационную плотность документа.
Важное значение имеет вхождение всех ключевых слов без исключения в текст документа. То есть абсолютно все слова из семантического кластера должны быть упомянуты хотя бы по одному разу.
Важно делать географическую привязку, то есть перечислить в тексте те регионы, в которых вы работаете.
Если построить зависимость значений BM25 от TF (частоты слова), можно увидеть, что существует некоторое оптимальное значение TF (для средней длины текста этот показатель, как правило, составляет 6-9 вхождений). Почему это значение считается оптимальным?
Дело в том, что до достижения оптимального значения TF функция BM25 достаточно бодро растет с увеличением частоты слова (то есть для повышения релевантности документа нужно увеличить частоту вхождения ключевых слов).
Но после достижения оптимума увеличение TF не дает значимого прироста релевантности. При этом текст становится трудночитаемым, и повышается риск санкций со стороны поисковых систем за «переспам» (слишком частое употребление ключевых слов в тексте).

На практике бывает сложно определить оптимальный размер текста и количество вхождений ключевых слов, так как эти значения могут сильно отличаться для разных рынков и сегментов поискового индекса. Большое значение здесь имеет практический опыт. Если вам его не хватает, может помочь анализ успешных конкурентов.

Введите целевой запрос в поисковую строку, и посчитайте средний размер текста и среднее количество вхождений ключевых слов у сайтов из ТОП10 выдачи. Это поможет составить примерное представление о том, какие тексты по данной теме хотят видеть пользователи и поисковики.

Но помните: эти цифры нельзя воспринимать как абсолютную истину. Если в среднем ваши конкуренты пишут 1500 знаков, это не значит, что и вы должны делать также. В конце концов, при анализе вы увидите, что даже разброс в пределах соседних позиций может быть значительным. Например, на втором месте в выдаче будет заметка размером в 200, а на третьем — большая статья размером в 1000 слов.

Пишите, ориентируясь на собственный здравый смысл. Главное, чтобы текст приносил пользу посетителям сайта, а его размер не имеет принципиального значения.

Ключевые слова должны входить во все зоны документа, перечисленные нами при описании алгоритма BM25F.
При расчете частотности нужно учитывать все морфологические формы ключевых слов, а также их синонимы.

Остается отметить, что TF-IDF-подобные функции используют модель «мешка слов», то есть оценивает релевантность на основе частотности слов запроса в документе — без учёта взаимоотношений между ними. Для корректного ранжирования этого недостаточно. Как минимум, необходимо еще учитывать:

взаимное расположение слов из запроса в тексте относительно друг друга;
словоформу;
позицию слов в документе относительно его начала.

Например, если в тексте слово «морепродукты» стоит рядом со словом «цена», то можно рассчитывать, что сайт продает морепродукты. Но если эти слова стоят в разных концах веб-страницы, сделать вывод об их связи уже гораздо сложнее. Другой пример: интуитивно понятно, что чем ближе к началу текста встречается ключевое слово, тем более релевантен текст этому слову.

Модель BM25 не учитывает эти параметры, поэтому разработчики поисковых систем внедрили для них отдельные алгоритмы. Эти алгоритмы мы и обсудим в следующих статьях.

Больше информации:

Тэги

Поисковое продвижение текстовая оптимизация