Google: размещайте ресурсы на разных именах хостов, чтобы сэкономить бюджет сканирования

Google рекомендует размещать ресурсы веб-сайта на CDN или поддоменах, чтобы сохранить бюджет сканирования основного сайта и улучшить его индексацию.

Робот Googlebot кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша.
Использование CDN для ресурсов может помочь сохранить бюджет сканирования вашего сайта.
Блокировка ресурсов в файле robots.txt может навредить способности Google отображать и ранжировать страницы.

Центр поиска Google запустил новую серию под названием “Crawling October” чтобы получить представление о том, как робот Googlebot сканирует и индексирует веб-страницы.

Google будет публиковать новую статью каждую неделю в этом месяце, в которой рассматриваются различные аспекты процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.

<стр>Первый пост серии посвящен основам сканирования и проливает свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетом сканирования.

Основы сканирования

Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Робот Googlebot работает как веб-браузер, но по другому графику.

Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.

<п>Вот шаги по порядку:

<ол>
Первоначальная загрузка HTML
Обработка службой веб-рендеринга
Извлечение ресурсов
Построение последней страницы

<ч2>Управление бюджетом сканирования

Сканирование дополнительных ресурсов может сократить бюджет сканирования основного сайта. Чтобы помочь в этом, Google заявляет, что “WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на отображаемых страницах.”

Важно отметить, что кэш WRS сохраняется до 30 дней и не зависит от правил HTTP-кэширования, установленных разработчиками.

Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.

<ч3>Рекомендации <стр>В этом посте владельцы сайтов получают советы о том, как оптимизировать краулинговый бюджет: <ол>

<сильный>Уменьшение использования ресурсов: используйте меньше ресурсов для создания хорошего пользовательского опыта. Это помогает сэкономить бюджет сканирования при рендеринге страницы.
Ресурсы хоста отдельно: размещайте ресурсы на другом имени хоста, например, в CDN или субдомене. Это может помочь переложить нагрузку на краулинговый бюджет с вашего основного сайта.
Используйте параметры очистки кэша с умом: Будьте осторожны с параметрами очистки кэша. Изменение URL-адресов ресурсов может заставить Google перепроверить их, даже если содержание осталось прежним. Это может привести к потере вашего краулингового бюджета.

Кроме того, Google предупреждает, что блокирование сканирования ресурсов с помощью файла robots.txt может быть рискованным.

Если Google не может получить доступ к необходимому ресурсу для рендеринга, у него могут возникнуть проблемы с получением содержимого страницы и его правильным ранжированием.

Инструменты мониторинга

Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.

Вы можете идентифицировать Googlebot по его IP-адресу, используя диапазоны, опубликованные в документации разработчика Google.

Почему это важно

В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:

<ул>

Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша, что помогает экономить бюджет сканирования.
Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.

<стр>Понимание этой механики помогает оптимизаторам и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов – – варианты, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.