Google перечисляет 9 сценариев, объясняющих, как он выбирает канонические URL-адреса

Google перечисляет 9 сценариев, объясняющих, как он выбирает канонические URL-адреса

Джон Мюллер из Google объясняет девять сценариев, в которых один URL выбирается в качестве канонического вместо другого.

<п>Джон Мюллер из Google ответил на вопрос на Reddit о том, почему Google предпочитает одну веб-страницу другой, когда несколько страниц имеют дублирующийся контент, а также объяснил, почему Google иногда выбирает неправильный URL-адрес в качестве канонического.

Канонические URL

Слово «канонический» ранее в основном использовалось в религиозном смысле для описания того, какие писания или верования считались авторитетными. В сообществе SEO это слово используется для обозначения того, какой URL является настоящей веб-страницей, когда несколько веб-страниц имеют один и тот же или похожий контент.

Google позволяет владельцам сайтов и специалистам по поисковой оптимизации подсказать, какой URL-адрес является каноническим, с помощью атрибута HTML, называемого rel=canonical. SEOs often refer to rel=canonical as an HTML element, but it’s not. Rel=canonical is an attribute of the <link> элемент. An HTML element is a building block for a web page. An attribute is markup that modifies the element.

Why Google Picks One URL Over Another

A person on Reddit asked Mueller to provide a deeper dive on the reasons why Google picks one URL over another.

Они спросили:

<блоковая цитата><п>“Эй, Джон, могу ли я попросить тебя углубиться в эту тему? Допустим, я хочу понять, почему Google считает, что две страницы дублируются, и выбирает одну из них, а причина на самом деле не видна. Что можно сделать, чтобы лучше понять, почему одна страница предпочтительнее другой, если они охватывают разные темы? Например, IDK, красная панда и “обычные” панда 🐼. ТИ!!”

Мюллер ответил примерно девятью различными причинами, по которым Google предпочитает одну страницу другой, включая технические причины, по которым Google, кажется, ошибается, но на самом деле это иногда происходит из-за чего-то, что владелец сайта упустил из виду из-за SEO.

Here are the nine reasons he cited for canonical choices:

<ол>

  • Точно повторяющийся контент
    The pages are fully identical, leaving no meaningful signal to distinguish one URL from another.
  • Substantial duplication in main content
    A large portion of the primary content overlaps across pages, such as the same article appearing in multiple places.
  • Too little unique main content relative to template content
    Уникальное содержимое страницы минимально, поэтому повторяющиеся элементы, такие как навигация, меню или макет, доминируют и делают страницы практически одинаковыми.
  • Шаблоны параметров URL-адресов выводятся как дубликаты
    Если известно, что несколько параметризованных URL-адресов возвращают один и тот же контент, Google может обобщить этот шаблон и рассматривать аналогичные варианты параметров как дубликаты.
  • Мобильная версия использовалась для сравнения
    Google может оценивать мобильную версию вместо настольной, что может привести к дублированию оценок, отличающихся от тех, которые проверяются вручную.
  • Версия, видимая роботу Googlebot, используется для оценки
    Канонические решения основаны на том, что на самом деле получает робот Googlebot, а не на том, что видят пользователи.
  • Обслуживание роботом Google альтернативных или несодержащих страниц
    Если роботу Google отображаются запросы ботов, страницы псевдоошибок или другие общие ответы, они могут соответствовать ранее просмотренному контенту и рассматриваться как дубликаты.
  • Не удалось отобразить содержимое JavaScript
    Когда Google не может отобразить страницу, он может полагаться на базовую оболочку HTML, которая может быть одинаковой на всех страницах и вызывать дублирование.
  • Неоднозначность или неправильная классификация в системе
    В некоторых случаях URL-адрес может рассматриваться как дубликат просто потому, что он кажется «неуместным». или из-за ограничений в том, как система интерпретирует сходство.
  • Вот полный ответ Мюллера:

    “Не существует инструмента, который бы объяснил, почему что-то было сочтено дубликатом – с годами люди часто это чувствуют, но это не всегда очевидно. Видео Мэтта «Как Google справляется с дублированием контента?» хороший старт, даже сейчас.

    <п>Некоторые из причин, по которым вещи считаются дубликатами (все они упоминались в разных местах – дублируйте контент о дублированном контенте, если хотите :-)): точное дублирование (все дублируется), частичное совпадение (большая часть дублируется, например, когда у вас есть одна и та же запись в двух блогах; иногда просто не так много контента, например, если у вас огромное меню и крошечная запись в блоге) или – это сложнее – когда URL-адрес выглядит так, как будто он дублируется на основе дубликатов, найденных в других местах сайта (например, если /page?tmp=1234 и /page?tmp=3458 одинаковы, вероятно, /page?tmp=9339 слишком — это может быть сложно и в конечном итоге привести к неправильному использованию нескольких параметров, /page?tmp=1234&amp;city=detroit тоже самое? как насчет /page?tmp=2123&city=чикаго ?).

    <п>Я видел две причины, по которым людей сбивали с толку: мы используем мобильную версию (люди обычно проверяют на настольном компьютере) и мы используем версию, которую видит робот Google (и если вы показываете роботу Google вызов с ботом или какую-либо другую страницу с псевдоошибкой, скорее всего, мы видели это раньше и можем счесть ее дубликатом). Итак, мы используем отрендеренную версию – но это означает, что мы должны иметь возможность отображать вашу страницу, если она использует JS-фреймворк для контента (если мы не можем ее визуализировать, мы можем взять загрузочную HTML-страницу и, скорее всего, она будет дублироваться).

    Бывает, что эти системы не идеальны в выборе повторяющегося контента, иногда просто альтернативный URL кажется явно неуместным. Иногда это проходит со временем (поскольку наши системы осознают, что все действительно по-другому), иногда нет.

    Если это похожий контент, пользователи все равно смогут найти к нему дорогу, так что в целом это не так уж и страшно. Довольно редко случается, что мы передаем неправильный дубликат – за прошедшие годы команды проделали фантастическую работу с этими системами; большинство странных из них не вызывают проблем, часто это просто какая-то странная страница с ошибкой, которую трудно обнаружить.”

    <ч2>На вынос

    Мюллер предложил подробно рассмотреть причины, по которым Google выбирает канонические версии. Он описал процесс выбора канонических значений как нечеткую систему сортировки, построенную на основе перекрывающихся сигналов, в которой Google сравнивает контент, шаблоны URL-адресов, визуализированные выходные данные и версии, видимые сканеру, в то время как пограничные классификации («странные») проходят проверку, потому что они не представляют проблемы.

    Back To Top