Google перечисляет 9 сценариев, объясняющих, как он выбирает канонические URL-адреса

Джон Мюллер из Google объясняет девять сценариев, в которых один URL выбирается в качестве канонического вместо другого.

<п>Джон Мюллер из Google ответил на вопрос на Reddit о том, почему Google предпочитает одну веб-страницу другой, когда несколько страниц имеют дублирующийся контент, а также объяснил, почему Google иногда выбирает неправильный URL-адрес в качестве канонического.

Канонические URL

Слово «канонический» ранее в основном использовалось в религиозном смысле для описания того, какие писания или верования считались авторитетными. В сообществе SEO это слово используется для обозначения того, какой URL является настоящей веб-страницей, когда несколько веб-страниц имеют один и тот же или похожий контент.

Google позволяет владельцам сайтов и специалистам по поисковой оптимизации подсказать, какой URL-адрес является каноническим, с помощью атрибута HTML, называемого rel=canonical. SEOs often refer to rel=canonical as an HTML element, but it’s not. Rel=canonical is an attribute of the <link> элемент. An HTML element is a building block for a web page. An attribute is markup that modifies the element.

Why Google Picks One URL Over Another

A person on Reddit asked Mueller to provide a deeper dive on the reasons why Google picks one URL over another.

Они спросили:

<блоковая цитата><п>“Эй, Джон, могу ли я попросить тебя углубиться в эту тему? Допустим, я хочу понять, почему Google считает, что две страницы дублируются, и выбирает одну из них, а причина на самом деле не видна. Что можно сделать, чтобы лучше понять, почему одна страница предпочтительнее другой, если они охватывают разные темы? Например, IDK, красная панда и “обычные” панда 🐼. ТИ!!”

Мюллер ответил примерно девятью различными причинами, по которым Google предпочитает одну страницу другой, включая технические причины, по которым Google, кажется, ошибается, но на самом деле это иногда происходит из-за чего-то, что владелец сайта упустил из виду из-за SEO.

Here are the nine reasons he cited for canonical choices:

<ол>

Точно повторяющийся контент
The pages are fully identical, leaving no meaningful signal to distinguish one URL from another.

Substantial duplication in main content
A large portion of the primary content overlaps across pages, such as the same article appearing in multiple places.

Too little unique main content relative to template content
Уникальное содержимое страницы минимально, поэтому повторяющиеся элементы, такие как навигация, меню или макет, доминируют и делают страницы практически одинаковыми.

Шаблоны параметров URL-адресов выводятся как дубликаты
Если известно, что несколько параметризованных URL-адресов возвращают один и тот же контент, Google может обобщить этот шаблон и рассматривать аналогичные варианты параметров как дубликаты.

Мобильная версия использовалась для сравнения
Google может оценивать мобильную версию вместо настольной, что может привести к дублированию оценок, отличающихся от тех, которые проверяются вручную.

Версия, видимая роботу Googlebot, используется для оценки
Канонические решения основаны на том, что на самом деле получает робот Googlebot, а не на том, что видят пользователи.

Обслуживание роботом Google альтернативных или несодержащих страниц
Если роботу Google отображаются запросы ботов, страницы псевдоошибок или другие общие ответы, они могут соответствовать ранее просмотренному контенту и рассматриваться как дубликаты.

Не удалось отобразить содержимое JavaScript
Когда Google не может отобразить страницу, он может полагаться на базовую оболочку HTML, которая может быть одинаковой на всех страницах и вызывать дублирование.

Неоднозначность или неправильная классификация в системе
В некоторых случаях URL-адрес может рассматриваться как дубликат просто потому, что он кажется «неуместным». или из-за ограничений в том, как система интерпретирует сходство.

Вот полный ответ Мюллера:

“Не существует инструмента, который бы объяснил, почему что-то было сочтено дубликатом – с годами люди часто это чувствуют, но это не всегда очевидно. Видео Мэтта «Как Google справляется с дублированием контента?» хороший старт, даже сейчас.

<п>Некоторые из причин, по которым вещи считаются дубликатами (все они упоминались в разных местах – дублируйте контент о дублированном контенте, если хотите :-)): точное дублирование (все дублируется), частичное совпадение (большая часть дублируется, например, когда у вас есть одна и та же запись в двух блогах; иногда просто не так много контента, например, если у вас огромное меню и крошечная запись в блоге) или – это сложнее – когда URL-адрес выглядит так, как будто он дублируется на основе дубликатов, найденных в других местах сайта (например, если /page?tmp=1234 и /page?tmp=3458 одинаковы, вероятно, /page?tmp=9339 слишком — это может быть сложно и в конечном итоге привести к неправильному использованию нескольких параметров, /page?tmp=1234&city=detroit тоже самое? как насчет /page?tmp=2123&city=чикаго ?).

<п>Я видел две причины, по которым людей сбивали с толку: мы используем мобильную версию (люди обычно проверяют на настольном компьютере) и мы используем версию, которую видит робот Google (и если вы показываете роботу Google вызов с ботом или какую-либо другую страницу с псевдоошибкой, скорее всего, мы видели это раньше и можем счесть ее дубликатом). Итак, мы используем отрендеренную версию – но это означает, что мы должны иметь возможность отображать вашу страницу, если она использует JS-фреймворк для контента (если мы не можем ее визуализировать, мы можем взять загрузочную HTML-страницу и, скорее всего, она будет дублироваться).

Бывает, что эти системы не идеальны в выборе повторяющегося контента, иногда просто альтернативный URL кажется явно неуместным. Иногда это проходит со временем (поскольку наши системы осознают, что все действительно по-другому), иногда нет.

Если это похожий контент, пользователи все равно смогут найти к нему дорогу, так что в целом это не так уж и страшно. Довольно редко случается, что мы передаем неправильный дубликат – за прошедшие годы команды проделали фантастическую работу с этими системами; большинство странных из них не вызывают проблем, часто это просто какая-то странная страница с ошибкой, которую трудно обнаружить.”

<ч2>На вынос

Мюллер предложил подробно рассмотреть причины, по которым Google выбирает канонические версии. Он описал процесс выбора канонических значений как нечеткую систему сортировки, построенную на основе перекрывающихся сигналов, в которой Google сравнивает контент, шаблоны URL-адресов, визуализированные выходные данные и версии, видимые сканеру, в то время как пограничные классификации («странные») проходят проверку, потому что они не представляют проблемы.