В новой документации Google по сканированию объясняется, как исправить проблемы сканирования, связанные с CDN
<стр>Google опубликовал объяснение, в котором обсуждается, как сети доставки контента (CDN) влияют на сканирование поиска и улучшают SEO, а также то, как они иногда могут вызывать проблемы.стр>
Что такое CDN?
<стр>Сеть доставки контента (CDN) — это служба, которая кэширует веб-страницу и отображает ее из центра обработки данных, ближайшего к браузеру, запрашивающему эту веб-страницу. Кэширование веб-страницы означает, что CDN создает копию веб-страницы и сохраняет ее. Это ускоряет доставку веб-страницы, поскольку теперь она обслуживается с сервера, который находится ближе к посетителю сайта, что требует меньшего количества “прыжков” через Интернет от исходного сервера до места назначения (браузер посетителя сайта).
CDN открывают больше возможностей сканирования
<п>Одним из преимуществ использования CDN является то, что Google автоматически увеличивает скорость сканирования, когда обнаруживает, что веб-страницы обслуживаются из CDN. Это делает использование CDN привлекательным для оптимизаторов и издателей, которые обеспокоены увеличением количества страниц, сканируемых роботом Googlebot.
Обычно робот Googlebot уменьшает объем сканирования с сервера, если обнаруживает, что он достигает определенного порога, вызывающего замедление работы сервера. Робот Google замедляет скорость сканирования, что называется регулированием. Этот порог “регулирования” выше при обнаружении CDN, что приводит к сканированию большего количества страниц.
Что касается обслуживания страниц из CDN, то нужно понимать, что при первом обслуживании страниц они должны обслуживаться непосредственно с вашего сервера. Google использует пример сайта с более чем миллионом веб-страниц:
“Однако при первом доступе к URL-адресу кэш CDN становится “холодным”, то есть, поскольку никто не запросил этот URL-адрес, его содержимое еще не было кэшировано CDN, поэтому вашему исходному серверу все равно придется обслужить этот URL хотя бы один раз, чтобы “разминка” кэш CDN. Это очень похоже на то, как работает HTTP-кеширование.
<п>Короче говоря, даже если ваш интернет-магазин поддерживается CDN, вашему серверу необходимо будет обслуживать эти 1 000 007 URL-адресов хотя бы один раз. Только после этого первоначального обслуживания ваш CDN сможет помочь вам со своими кешами. Это значительная нагрузка на ваш «бюджет сканирования». и скорость сканирования, скорее всего, будет высокой в течение нескольких дней; имейте это в виду, если планируете запускать множество URL-адресов одновременно.”
При использовании CDN для сканирования
Google сообщает, что в некоторых случаях CDN может внести Googlebot в черный список и впоследствии заблокировать сканирование. Этот эффект описывается как два вида блоков:
. <п>1. Жесткие блоки
<п>2. Мягкие блоки
<п>Жесткие блокировки происходят, когда CDN отвечает, что произошла ошибка сервера. Неверный ответ об ошибке сервера может иметь код 500 (внутренняя ошибка сервера), который сигнализирует о серьезной проблеме с сервером. Еще один неверный ответ на ошибку сервера — 502 (плохой шлюз). Оба этих ответа на ошибку сервера заставят робота Google замедлить скорость сканирования. Проиндексированные URL-адреса сохраняются внутри Google, но продолжающиеся ответы 500/502 могут привести к тому, что Google в конечном итоге исключит URL-адреса из поискового индекса.
Предпочтительный ответ — 503 (сервис недоступен), что указывает на временную ошибку.
<п>Еще один серьезный блок, на который следует обратить внимание, — это то, что Google называет «случайными ошибками». то есть когда сервер отправляет код ответа 200, что означает, что ответ был хорошим (даже несмотря на то, что он отображает страницу с ошибкой с этим ответом 200). Google интерпретирует эти страницы с ошибками как дубликаты и удалит их из поискового индекса. Это большая проблема, потому что восстановление после такого рода ошибок может занять время.
Мягкая блокировка может произойти, если CDN показывает одно из следующих сообщений “Are you human?” всплывающие окна (межстраничные объявления бота) для робота Googlebot. Межстраничные объявления с ботом должны отправить ответ сервера 503, чтобы Google знал, что это временная проблема.
В новой документации Google объясняется:
<блоковая цитата><п>“…когда появляется межстраничная реклама, это все, что они видят, а не ваш замечательный сайт. В случае появления таких рекламных вставок с проверкой ботом мы настоятельно рекомендуем отправлять автоматизированным клиентам, таким как поисковые роботы, четкий сигнал в виде кода статуса HTTP 503 о том, что контент временно недоступен. Это гарантирует, что контент не будет автоматически удален из индекса Google. ”
См. также: 9 советов по оптимизации бюджета сканирования для SEO
Проблемы отладки с инструментом проверки URL и элементами управления WAF
<стр>Google рекомендует использовать инструмент проверки URL в Search Console, чтобы увидеть, как CDN обслуживает ваши веб-страницы. Если брандмауэр CDN, называемый брандмауэром веб-приложений (WAF), блокирует Googlebot по IP-адресу, вы должны иметь возможность проверить заблокированные IP-адреса и сравнить их с официальным списком IP-адресов Google, чтобы увидеть, есть ли один из них в списке. .стр>
Google предлагает следующие советы по отладке на уровне CDN:
“Если вам нужно, чтобы ваш сайт отображался в поисковых системах, мы настоятельно рекомендуем проверить, могут ли нужные вам поисковые роботы получить доступ к вашему сайту. Помните, что IP-адреса могут автоматически попадать в черный список без вашего ведома, поэтому проверка черного списка время от времени будет хорошей идеей для успеха вашего сайта в поиске и за его пределами. Если список заблокированных адресов очень длинный (что похоже на этот пост в блоге), попробуйте поискать только первые несколько сегментов диапазонов IP-адресов, например, вместо поиска 192.168.0.101 вы можете просто поискать 192.168. 60~/p>