<стр>Джон Мюллер из Google объясняет, почему запрещенные страницы иногда индексируются и что соответствующие отчеты Search Console могут быть отклоненыстр>
<п>Джон Мюллер из Google ответил на вопрос о том, почему Google индексирует страницы, сканирование которых запрещено файлом robots.txt, и почему можно безопасно игнорировать соответствующие отчеты Search Console об этих сканированиях.
Трафик ботов для запроса URL-адресов параметров
Человек, задавший вопрос, документально подтвердил, что боты создавали ссылки на несуществующие URL-адреса параметров запроса (?q=xyz) на страницы с метатегами noindex, которые также заблокированы в robots.txt. Вопрос возник в связи с тем, что Google сканирует ссылки на эти страницы, блокируется файлом robots.txt (не видя метатега noindex robots), а затем в консоли поиска Google сообщается о том, что он “проиндексирован, хотя блокируется файлом robots.txt. .”
Человек задал следующий вопрос:
“Но вот большой вопрос: зачем Google индексировать страницы, если они даже не видят содержание? Что&rsquo ;это преимущество?”
Джон Мюллер из Google подтвердил, что если они не смогут просканировать страницу, они не смогут увидеть метатег noindex. Он также делает интересное упоминание об операторе site:search, советуя игнорировать результаты, поскольку “средний” пользователи не увидят эти результаты.
Он написал:
<блоковая цитата><п>«Да, вы правы: если мы не можем просканировать страницу, мы не сможем увидеть noindex. Тем не менее, если мы не можем просканировать страницы, нам нечего индексировать. Таким образом, хотя вы и можете увидеть некоторые из этих страниц с целевым запросом site:-, средний пользователь их не увидит, поэтому я бы не стал с этим суетиться. Noindex также подойдет (без запрета в файле robots.txt), это просто означает, что URL-адреса в конечном итоге будут просканированы (и попадут в отчет Search Console для просканированных/не проиндексированных — ни один из этих статусов не вызовет проблем для остальных пользователей). сайт). Важная часть заключается в том, что вы не делаете их доступными для сканирования и индексации.”
<ч2>Выводы:ч2> <п>1. Ответ Мюллера подтверждает ограничения в использовании оператора расширенного поиска Site:search по диагностическим причинам. Одна из этих причин заключается в том, что он не связан с обычным поисковым индексом, это вообще отдельная вещь.
Джон Мюллер из Google прокомментировал работу оператора поиска по сайту в 2021 году:
“Краткий ответ: запрос site: не является полным и не используется для целей диагностики.
Запрос по сайту — это особый вид поиска, который ограничивает результаты определенным веб-сайтом. По сути, это просто слово сайт, двоеточие и домен веб-сайта.
Этот запрос ограничивает результаты конкретным веб-сайтом. Это не полная коллекция всех страниц этого сайта.”
<п>2. Тег Noindex без использования файла robots.txt подходит для ситуаций, когда бот ссылается на несуществующие страницы, обнаруженные роботом Googlebot.
<п>3. URL-адреса с тегом noindex будут генерировать сообщение “просканировано/не проиндексировано” запись в Search Console и что они не окажут негативного влияния на остальную часть веб-сайта.