Факты о сигналах кликов Google, рейтингах и SEO

Факты о сигналах кликов Google, рейтингах и SEO

<стр>Как системы Google обрабатывают данные о кликах, а также прямые факты о том, какое значение это имеет для SEO и рейтинга.

Клики как сигнал, связанный с ранжированием, являются предметом споров уже более двадцати лет, хотя в настоящее время большинство оптимизаторов понимают, что клики не являются прямым фактором ранжирования. Простая истина о кликах заключается в том, что они представляют собой необработанные данные и, что удивительно, обрабатываются так же, как оценки людей.

Клик – это необработанный сигнал

<п>В заключении антимонопольного меморандума Министерства юстиции США от сентября 2025 года клики упоминаются как «необработанный сигнал». который использует Google. Он также классифицирует контент и поисковые запросы как необработанные сигналы. Это важно, поскольку необработанный сигнал — это точка данных самого низкого уровня, которая обрабатывается в сигналы ранжирования более высокого уровня или используется для обучения такой модели, как RankEmbed и ее преемника, RankEmbedBERT.

Они считаются необработанными сигналами, потому что они:

<ул>

  • Непосредственное наблюдение
  • Но еще не интерпретировано и не использовано для обучающих данных
  • <п><эм>В документе Министерства юстиции цитируется профессор Джеймс Аллан, который дал экспертные показания от имени Google:

    “Сигналы различаются по сложности. Есть “сырые” сигналы, такие как количество кликов, содержимое веб-страницы и термины в запросе.

    …Эти сигналы можно создавать с помощью простых методов, таких как подсчет вхождений (например, сколько раз нажимали на веб-страницу в ответ на определенный запрос). То же самое
    в 2859:3–2860:21 (Аллан) (обсуждается сигнал Navboost) “

    Затем он сравнивает необработанные сигналы с тем, как они обрабатываются:

    “На другом конце спектра находятся инновационные модели глубокого обучения, которые представляют собой модели машинного обучения, которые распознают сложные закономерности в больших наборах данных.

    <п>Глубокие модели находят и используют закономерности в огромных наборах данных. Они добавляют уникальные возможности за высокую цену.”

    Профессор Аллан объясняет, что “сигналы высшего уровня” используются для создания “финального” оценки веб-страницы, включая популярность и качество.

    Необработанные сигналы — это данные для дальнейшей обработки

    Navboost несколько раз упоминается в антимонопольном документе от сентября 2025 года как показатель популярности. Это не упоминается в контексте кликов, влияющих на ранжирование отдельных сайтов.

    Этот способ измерения популярности и намерений:

    “…популярность, измеряемая намерениями пользователей и системами обратной связи, включая Navboost/Glue…”

    И в другом месте, в контексте объяснения, почему некоторые данные Navboost являются привилегированными:

    “Это ‘популярность, измеряемая намерениями пользователей и системами обратной связи, включая Navboost/Glue’…”

    В контексте объяснения того, почему некоторые данные Navboost являются привилегированными:

    “В соответствии с предлагаемым средством правовой защиты Google должна предоставить Квалифицированным конкурентам …следующие наборы данных:

    <п>1. Данные на стороне пользователя, используемые для построения, создания или эксплуатации статистической модели (моделей) GLUE;

    <п>2. Данные на стороне пользователя, используемые для обучения, построения или эксплуатации моделей RankEmbed; и <п>3. Данные на стороне пользователя, используемые в качестве обучающих данных для моделей GenAI, используемых в поиске, или любого продукта GenAI, который можно использовать для доступа к поиску.

    <п>Google использует первые два набора данных для построения поисковых сигналов, а третий — для обучения и уточнения моделей, лежащих в основе обзоров ИИ и (возможно) приложения Gemini.”

    Клики, как и оценки оценщиков, представляют собой всего лишь необработанный сигнал, который используется далее по цепочке алгоритмов для обучения моделей ИИ, чтобы они могли лучше сопоставлять веб-страницы с запросами или генерировать сигнал качества или релевантности, который затем добавляется к остальным сигналам ранжирования механизмом ранжирования или механизмом модификатора ранга.

    <ч2>70 дней журналов поиска <п>В документе Министерства юстиции упоминается использование журналов поиска за 70 дней. Но это всего лишь одиннадцать слов в более широком контексте.

    Вот часть, которую часто цитируют:

    “журналы поиска за 70 дней плюс оценки, полученные оценщиками”

    Я понимаю, это просто и понятно. Но здесь есть и другой контекст:

    “RankEmbed и его более поздняя версия RankEmbedBERT – это модели ранжирования, основанные на двух основных источниках данных: [Отредактировано]% журналов поиска за 70 дней плюс оценки, сгенерированные оценщиками и используемые Google для измерения качества органического поиска. результаты.”

    <п>Журналы поиска за 70 дней не являются данными о кликах, которые используются для ранжирования в Google, AI Mode или Gemini. Это совокупность данных, которая далее обрабатывается для обучения специализированных моделей искусственного интеллекта, таких как RankEmbedBERT, которые, в свою очередь, ранжируют веб-страницы на основе анализа естественного языка.

    В этой части документа Министерства юстиции не утверждается, что Google напрямую использует данные о кликах для ранжирования результатов поиска. Это данные, как и данные оценщиков, которые используются другими системами для обучения или для дальнейшей обработки.

    Какой рейтинг GoogleВстроить?

    RankEmbed — это подход на основе естественного языка для идентификации соответствующих документов и их ранжирования.

    В том же документе Министерства юстиции объясняется:

    “Сама модель RankEmbed представляет собой систему глубокого обучения на основе искусственного интеллекта, которая хорошо понимает естественный язык. Это позволяет модели более эффективно определять лучшие документы для получения, даже если в запросе отсутствуют определенные термины.”

    Он обучен на меньшем количестве данных, чем предыдущие модели. Данные частично состоят из терминов запроса и пар веб-страниц:

    “…RankEmbed обучается на 1/100 данных, использованных для обучения более ранних моделей ранжирования, но обеспечивает более качественные результаты поиска.

    …Среди базовых обучающих данных находится информация о запросе, включая основные термины, которые Google получил из запроса, и результирующие веб-страницы.”

    <п>Это обучающие данные для обучения модели распознаванию того, какое отношение термины запроса имеют к веб-страницам.

    В том же документе объясняется:

    “Данные, лежащие в основе моделей RankEmbed, представляют собой комбинацию данных кликов и запросов и оценок веб-страниц, полученных оценщиками-людьми.”

    Совершенно ясно, что в контексте этого конкретного отрывка описывается использование данных о кликах (и данных оценщиков) для обучения моделей ИИ, а не для прямого влияния на рейтинг.

    А как насчет патента Google на рейтинг кликов?

    Еще в 2006 году Google подала патент, связанный с кликами, под названием Изменение рейтинга результатов поиска на основе неявных отзывов пользователей. Изобретение касается математической формулы для создания «меры релевантности». из агрегированных необработанных данных о кликах (множественное число).

    В патенте проводится различие между созданием сигнала и самим актом ранжирования. “мера релевантности” выводится в систему ранжирования, которая затем может добавить его к существующим рейтинговым оценкам, чтобы ранжировать результаты поиска для новых поисков.

    Вот что описано в патенте:

    “Подсистема ранжирования может включать в себя механизм модификатора ранга, который использует неявную обратную связь с пользователем для повторного ранжирования результатов поиска с целью улучшения окончательного рейтинга
    предоставляется пользователю информационно-поисковой системы.

    Выбранные пользователем результаты поиска (данные о кликах) можно отслеживать и преобразовывать в долю кликов, которую можно использовать для повторного ранжирования будущих результатов поиска.”

    Эта “доля щелчка” является мерой релевантности. Изобретение, описанное в патенте, не касается отслеживания кликов; Речь идет о математической мере (доля кликов), которая получается в результате объединения всех этих отдельных кликов. Сюда входят Короткий щелчок, Средний щелчок, Длинный щелчок и Последний щелчок.

    <п>Технически это называется фракцией LCIC (долгий клик, разделенный на клики). Это “клики” во множественном числе, потому что решения принимаются на основе суммы многих кликов (агрегата), а не отдельного клика.

    Эта доля кликов является совокупной, потому что:

    <ул>

  • <сильный>Суммирование:
    «Первый номер» для ранжирования используется сумма всех отдельных взвешенных кликов для конкретной пары запрос-документ.
  • <сильный>Нормализация:
    Он берет эту сумму и делит ее на общее количество всех кликов («второе число»).
  • <сильное>Статистическое сглаживание:
    Система применяет “коэффициенты сглаживания” к этому совокупному числу, чтобы гарантировать, что один щелчок по “редкому” запрос не искажает результаты несправедливо, особенно для спамеров.
  • В патенте 2006 года формула взвешивания описывается следующим образом:

    <блоковая цитата><п>“Базовую долю кликов LCC можно определить как:

    LCC_BASE=[#WC(Q,D)]/[#C(Q,D)+S0)

    где iWC(Q.D) — это сумма взвешенных кликов для пары URL-адресов запроса, iC(Q.D) — общее количество кликов (порядковый номер, не взвешенный) для пары запрос-URL, а S0 — коэффициент сглаживания.”

    Эта формула описывает суммирование и деление данных от многих пользователей для создания единой оценки документа. Параметр “query-URL” пара представляет собой “ведро” данных, в которых хранится поведение каждого пользователя, который когда-либо вводил этот конкретный запрос и нажимал на этот конкретный результат поиска. Фактор сглаживания — это антиспамовая часть, которая включает в себя отсутствие учета одиночных кликов по редким поисковым запросам.

    Даже в 2006 году клики — это просто необработанные данные, которые преобразуются дальше по цепочке на нескольких этапах агрегирования в статистический показатель релевантности еще до того, как они достигнут стадии ранжирования. В этом патенте клики сами по себе не являются факторами ранжирования, которые напрямую влияют на ранжирование сайта или нет. Они использовались в совокупности как мера релевантности, которая, в свою очередь, передавалась в другой механизм ранжирования.

    К тому времени, когда информация достигает системы ранжирования, необработанные данные преобразуются из действий отдельных пользователей в совокупный показатель релевантности.

    Вынос <ул>

  • Думать о кликах с точки зрения рейтинга не так просто, как клики влияют на рейтинг в поиске.
  • Клики — это просто необработанные данные.
  • Клики используются для обучения систем искусственного интеллекта, таких как RankEmbedBert.
  • Клики не влияют напрямую на результаты поиска. Они всегда были необработанными данными, отправной точкой для систем, которые используют данные в совокупности для создания сигнала, который затем смешивается с системами принятия решений о ранжировании в Google.
  • Так что да, как и данные оценщиков, необработанные данные обрабатываются для создания сигнала или обучения систем искусственного интеллекта.
  • <стр>Прочитайте меморандум Министерства юстиции в формате PDF здесь. <стр>Читать о четырёх научных статьях о CTR. <стр>Прочитайте патент Google 2006 года «Изменение рейтинга результатов поиска на основе неявных отзывов пользователей».

    Back To Top