Google объясняет, почему URL-адреса, заблокированные файлом robots.txt, все еще можно проиндексировать

Search Console сообщила: «Проиндексировано, хотя заблокировано robots.txt» для 51 000 URL-адресов, и Google утверждает, что это не обязательно проблема.

<п>Джон Мюллер из Google ответил на вопрос о любопытном обстоятельстве, когда консоль поиска сообщает, что тысячи URL-адресов проиндексированы, несмотря на то, что они заблокированы файлом robots.txt. Мюллер помог объяснить, как это происходит и что с этим делать.

Содержимое проиндексировано, несмотря на блокировку в файле robots.txt

Пользователь Redditor обратился за советом, поскольку в консоли поиска Google сообщалось о более чем 51 000 страницах со статусом «Проиндексировано, хотя заблокировано файлом robots.txt».” Затронутые URL-адреса в основном представляли собой URL-адреса продуктов WooCommerce, содержащие параметры URL-адреса добавления в корзину, такие как “?add-to-cart=”.

<п>Поскольку проблема возникла внезапно, владелец сайта задался вопросом, не являются ли сами правила robots.txt причиной возникновения проблемы. Они также хотели знать, поможет ли удаление правил Google обрабатывать канонические сигналы и удалять указанные URL-адреса из Search Console.

Человек спросил:

“У меня есть сайт WooCommerce, и внезапно с прошлого месяца мы столкнулись с этой проблемой: “Проиндексировано, хотя заблокировано robots.txt”

всего “Затронутые страницы: 51 тыс. страниц”

в конце URL-адреса я вижу в основном ?page&post_type=product&product=slug&add-to-cart=98063,

После проверки этих URL-адресов я обнаружил, что у них настроены индексные теги, а в файле robots.txt было

* Запретить: /*?add-to-cart=
* Запретить: /*?*add-to-cart=

<п>Я удалил эти два правила из файла robots.txt и надеюсь, что эти страницы исправлены, потому что у них есть канонический набор правильных продуктов, это решит проблему?

или мне также следует установить правила noindex?, повлияет ли это на наш бюджет на сканирование? это довольно большой сайт woocommerce, дайте мне знать, ребята, что вы думаете, есть ли у кого-то опыт решения такой проблемы? и какой метод будет правильным, чтобы не предотвратить потерю SEO или функциональности.”

Google заявляет, что URL-адреса добавления в корзину не нужно индексировать

<п>Мюллер ответил, что URL-адреса добавления в корзину не нуждаются в индексировании и что их блокировка через robots.txt является приемлемым подходом.

Он объяснил, что даже когда Google сообщает об этих URL-адресах как проиндексированных, они вряд ли появятся в обычных результатах поиска, поскольку они заблокированы файлом robots.txt. По словам Мюллера, пользователи обычно не ищут эти URL-адреса напрямую, что делает их плохими кандидатами на видимость в поиске.

Джон Мюллер ответил:

“Вам не нужно индексировать URL-адреса добавления в корзину. Заблокировать их с помощью robots.txt — это нормально. Даже если они будут “проиндексированы” поскольку они заблокированы файлом robots.txt, маловероятно, что они будут показаны в поиске (если только вы не выполняете специальные запросы для этих URL-адресов, чего пользователи не делают).”

Я в некоторой степени сомневаюсь в том, что сказал Мюллер о “robots.txt” делая это “маловероятным” что URL-адреса будут отображаться в поиске. Причина в том, что файл robots.txt не препятствует показу веб-страницы в поиске Google. Это просто не позволяет роботу Googlebot сканировать эти страницы. Так что технически это не совсем правильно, и я немного удивлен, что Мюллер сказал это.

Noindex, вероятно, не решение

<п>Один из пользователей Reddit, ответивший на этот вопрос, предложил решение — добавить тег robots noindex к параметризованным URL-адресам. Но это может оказаться нежизнеспособным решением, поскольку страницы с параметрами URL и без них по сути представляют собой одно и то же. Они отображаются с использованием одного и того же шаблона для конкретной страницы. Поэтому, если WooCommerce не обрабатывает их по-разному и не может отображать параметризованные URL-адреса с noindex и обычную страницу без noindex, это не настоящее решение.

Почему Google сообщает об проиндексированных URL-адресах, которые он не может сканировать

Другой пользователь Redditor предложил возможное объяснение того, почему в Search Console появилось так много URL-адресов. Они предположили, что Google, вероятно, обнаружил где-то на сайте ссылки, содержащие параметры добавления в корзину, и добавил эти URL-адреса в свои системы.

<п>Я предлагаю человеку, который изначально задал этот вопрос, — просканировать веб-сайт с помощью Screaming Frog, просмотреть внутренние ссылки, чтобы определить, откуда ведут ссылки на эти страницы, а затем предпринять некоторые действия, например удалить эти ссылки или добавить rel=”nofollow” привязать к ним атрибут.

Вероятно, лучшее решение — использовать блок robots.txt для предотвращения сканирования, если понятно, что это все, что он делает. Если человек хочет быть более уверенным, он также может определить, где существуют эти ссылки, а затем добавить атрибут ссылки nofollow в качестве дополнительного уровня, подсказки для Google. Nofollow — это не директива, но сильный намек.

Предупреждения консоли поиска не всегда указывают на проблему с поиском

Одна из постоянных проблем с отчетами Search Console заключается в том, что они могут раскрывать технические условия, которые выглядят тревожно, но на самом деле практически не оказывают никакого влияния на эффективность поиска. Например, отчеты об ошибках 404 полезны по разным причинам, но во многих случаях ответ сервера 404 является правильным ответом, и на самом деле это не «ошибка». это нужно исправить.

<ч2>На вынос

Ответ Мюллера подтверждает вывод о том, что не каждое предупреждение Search Console требует принятия мер по исправлению чего-либо, хотя в данном конкретном случае может быть что-то, что нужно исправить, в виде внутренних ссылок на веб-страницы, которые используют параметры URL-адреса корзины покупок. Если эти ссылки с параметрами URL-адреса корзины покупок абсолютно необходимы, то использование rel=”nofollow” Атрибут link даст Google убедительный намек не переходить по этой ссылке. Радость технического SEO!