Почему индексы Google блокируют веб-страницы

Почему индексы Google блокируют веб-страницы

<стр>Джон Мюллер из Google объясняет, почему запрещенные страницы иногда индексируются и что соответствующие отчеты Search Console могут быть отклонены

<п>Джон Мюллер из Google ответил на вопрос о том, почему Google индексирует страницы, сканирование которых запрещено файлом robots.txt, и почему можно безопасно игнорировать соответствующие отчеты Search Console об этих сканированиях.

Трафик ботов для запроса URL-адресов параметров

Человек, задавший вопрос, документально подтвердил, что боты создавали ссылки на несуществующие URL-адреса параметров запроса (?q=xyz) на страницы с метатегами noindex, которые также заблокированы в robots.txt. Вопрос возник в связи с тем, что Google сканирует ссылки на эти страницы, блокируется файлом robots.txt (не видя метатега noindex robots), а затем в консоли поиска Google сообщается о том, что он “проиндексирован, хотя блокируется файлом robots.txt. .”

Человек задал следующий вопрос:

“Но вот большой вопрос: зачем Google индексировать страницы, если они даже не видят содержание? Что&rsquo ;это преимущество?”

Джон Мюллер из Google подтвердил, что если они не смогут просканировать страницу, они не смогут увидеть метатег noindex. Он также делает интересное упоминание об операторе site:search, советуя игнорировать результаты, поскольку “средний” пользователи не увидят эти результаты.

Он написал:

<блоковая цитата><п>«Да, вы правы: если мы не можем просканировать страницу, мы не сможем увидеть noindex. Тем не менее, если мы не можем просканировать страницы, нам нечего индексировать. Таким образом, хотя вы и можете увидеть некоторые из этих страниц с целевым запросом site:-, средний пользователь их не увидит, поэтому я бы не стал с этим суетиться. Noindex также подойдет (без запрета в файле robots.txt), это просто означает, что URL-адреса в конечном итоге будут просканированы (и попадут в отчет Search Console для просканированных/не проиндексированных — ни один из этих статусов не вызовет проблем для остальных пользователей). сайт). Важная часть заключается в том, что вы не делаете их доступными для сканирования и индексации.”

<ч2>Выводы: <п>1. Ответ Мюллера подтверждает ограничения в использовании оператора расширенного поиска Site:search по диагностическим причинам. Одна из этих причин заключается в том, что он не связан с обычным поисковым индексом, это вообще отдельная вещь.

Джон Мюллер из Google прокомментировал работу оператора поиска по сайту в 2021 году:

“Краткий ответ: запрос site: не является полным и не используется для целей диагностики.

Запрос по сайту — это особый вид поиска, который ограничивает результаты определенным веб-сайтом. По сути, это просто слово сайт, двоеточие и домен веб-сайта.

Этот запрос ограничивает результаты конкретным веб-сайтом. Это не полная коллекция всех страниц этого сайта.”

<п>2. Тег Noindex без использования файла robots.txt подходит для ситуаций, когда бот ссылается на несуществующие страницы, обнаруженные роботом Googlebot.

<п>3. URL-адреса с тегом noindex будут генерировать сообщение “просканировано/не проиндексировано” запись в Search Console и что они не окажут негативного влияния на остальную часть веб-сайта.

Back To Top