Джон Мюллер из Google говорит, что ошибки «Страница проиндексирована без содержания» обычно указывают на блокировку сервера или CDN робота Googlebot, а не на проблемы с JavaScript. Вот что нужно проверить.
- Ошибки «Страница проиндексирована без содержания» обычно указывают на блокировку Googlebot на уровне сервера или CDN. ли>
- Затронутые страницы начнут удаляться из индекса Google, поэтому необходимо срочно решить эту проблему. ли>
- Эти блоки часто основаны на IP-адресах, и их трудно воспроизвести за пределами инструментов тестирования Search Console.
мл>
Специалист Google Search Advocate Джон Мюллер ответил на вопрос о “Странице, проиндексированной без содержания” ошибка в Search Console, объясняющая, что проблема обычно связана с блокировкой сервера или CDN, а не с JavaScript.
Обмен произошел на Reddit после того, как пользователь сообщил, что его домашняя страница упала с позиции 1 на позицию 15 после появления ошибки.
<ч2>Что происходит?ч2> <п>Мюллер разъяснил распространенное заблуждение о причине “Страницы, проиндексированные без содержания” в Search Console.
Мюллер написал:
“Обычно это означает, что ваш сервер/CDN блокирует получение Google любого контента. Это не связано ни с чем из JavaScript. Обычно это блокировка довольно низкого уровня, иногда основанная на IP-адресе робота Googlebot, поэтому, вероятно, ее будет невозможно протестировать за пределами инструментов тестирования Search Console.”
Пользователь Reddit уже предпринял несколько действий по диагностике. Они запустили команды curl, чтобы получить страницу от имени робота Googlebot, проверили на наличие блокировки JavaScript и протестировали с помощью теста расширенных результатов Google. Инструменты проверки рабочего стола вернули сообщение «Что-то пошло не так». ошибки, хотя мобильные инструменты работали нормально.
Мюллер отметил, что стандартные методы внешнего тестирования не способны обнаружить эти блоки.
<стр>Он добавил:стр>
“Кроме того, это будет означать, что страницы вашего сайта начнут выпадать из индекса (скоро или уже), поэтому будет хорошей идеей отнестись к этому как к чему-то срочному.”
Затронутый сайт использует Webflow в качестве CMS и Cloudflare в качестве CDN. Пользователь сообщил, что домашняя страница индексировалась нормально и на сайте не было последних изменений.
Почему это важно
<п>Я неоднократно освещал этот тип проблем на протяжении многих лет. Конфигурации CDN и сервера могут непреднамеренно заблокировать Googlebot, не затрагивая обычных пользователей или стандартные инструменты тестирования. Блокировки часто нацелены на определенные диапазоны IP-адресов, а это означает, что тесты Curl и сторонние сканеры не смогут воспроизвести проблему.
Я рассказал, когда Google впервые добавил “индексируется без содержания” в отчет об индексном покрытии. В справочной документации Google на тот момент отмечалось, что статус означает, что «по какой-то причине Google не смог прочитать контент»; и указали «это не случай блокировки robots.txt». Основная причина почти всегда кроется в чем-то нижнем в стеке.
Моё внимание привлекла деталь Cloudflare. Я сообщил о похожей ситуации, когда Мюллер посоветовал владельцу сайта, сканирование которого остановилось одновременно на нескольких доменах. Все пострадавшие сайты использовали Cloudflare, и Мюллер указал на «общую инфраструктуру». как вероятный виновник. Схема здесь выглядит знакомой.
Недавно я рассказал об отключении Cloudflare в ноябре, которое вызвало всплески 5xx, влияющие на сканирование. Это был широко распространенный инцидент. Этот случай, похоже, является чем-то более целенаправленным, вероятно, правилом защиты от ботов или настройками брандмауэра, которые обрабатывают IP-адреса робота Google не так, как другой трафик.
<п>Инструмент проверки URL-адресов Search Console и тест живых URL-адресов остаются основными способами выявления этих блоков. Когда эти инструменты возвращают ошибки при прохождении внешних тестов, вероятной причиной становится блокировка на уровне сервера. Мюллер высказал аналогичную точку зрения в августе, когда советовал снизить скорость сканирования, предлагая владельцам сайтов «перепроверить, что на самом деле произошло». и проверьте, “был ли CDN действительно заблокировал Googlebot.”
<ч2>Взгляд в будущееч2>
Если вы видите сообщение “Страница проиндексирована без содержания” Ошибка, проверьте настройки CDN и сервера на наличие правил, влияющих на диапазоны IP-адресов робота Googlebot. Google публикует IP-адреса своих сканеров, что может помочь определить, нацелены ли на них правила безопасности.
Инструмент проверки URL-адресов в консоли поиска — это наиболее надежный способ узнать, что Google получает при сканировании страницы. Инструменты внешнего тестирования не смогут обнаружить блокировки на основе IP-адресов, которые влияют только на инфраструктуру Google.
В частности, для пользователей Cloudflare проверьте настройки управления ботами, правила брандмауэра и любые элементы управления доступом на основе IP. Конфигурация могла быть изменена посредством автоматического обновления или новых настроек по умолчанию, а не вручную.
См. также: Google объясняет причины, по которым сканирование не индексируется
