Google: размещайте ресурсы на разных именах хостов, чтобы сэкономить бюджет сканирования

Google: размещайте ресурсы на разных именах хостов, чтобы сэкономить бюджет сканирования

Google рекомендует размещать ресурсы веб-сайта на CDN или поддоменах, чтобы сохранить бюджет сканирования основного сайта и улучшить его индексацию.

  • Робот Googlebot кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша.
  • Использование CDN для ресурсов может помочь сохранить бюджет сканирования вашего сайта.
  • Блокировка ресурсов в файле robots.txt может навредить способности Google отображать и ранжировать страницы.

    Центр поиска Google запустил новую серию под названием “Crawling October” чтобы получить представление о том, как робот Googlebot сканирует и индексирует веб-страницы.

    Google будет публиковать новую статью каждую неделю в этом месяце, в которой рассматриваются различные аспекты процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.

    <стр>Первый пост серии посвящен основам сканирования и проливает свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетом сканирования.

    Основы сканирования

    Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Робот Googlebot работает как веб-браузер, но по другому графику.

    Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.

    <п>Вот шаги по порядку:

    <ол>

  • Первоначальная загрузка HTML
  • Обработка службой веб-рендеринга
  • Извлечение ресурсов
  • Построение последней страницы
  • <ч2>Управление бюджетом сканирования

    Сканирование дополнительных ресурсов может сократить бюджет сканирования основного сайта. Чтобы помочь в этом, Google заявляет, что “WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на отображаемых страницах.”

    Важно отметить, что кэш WRS сохраняется до 30 дней и не зависит от правил HTTP-кэширования, установленных разработчиками.

    Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.

    <ч3>Рекомендации <стр>В этом посте владельцы сайтов получают советы о том, как оптимизировать краулинговый бюджет: <ол>

  • <сильный>Уменьшение использования ресурсов: используйте меньше ресурсов для создания хорошего пользовательского опыта. Это помогает сэкономить бюджет сканирования при рендеринге страницы.
  • Ресурсы хоста отдельно: размещайте ресурсы на другом имени хоста, например, в CDN или субдомене. Это может помочь переложить нагрузку на краулинговый бюджет с вашего основного сайта.
  • Используйте параметры очистки кэша с умом: Будьте осторожны с параметрами очистки кэша. Изменение URL-адресов ресурсов может заставить Google перепроверить их, даже если содержание осталось прежним. Это может привести к потере вашего краулингового бюджета.
  • Кроме того, Google предупреждает, что блокирование сканирования ресурсов с помощью файла robots.txt может быть рискованным.

    Если Google не может получить доступ к необходимому ресурсу для рендеринга, у него могут возникнуть проблемы с получением содержимого страницы и его правильным ранжированием.

    Инструменты мониторинга

    Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.

    Вы можете идентифицировать Googlebot по его IP-адресу, используя диапазоны, опубликованные в документации разработчика Google.

    Почему это важно

    В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:

    <ул>

  • Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
  • Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша, что помогает экономить бюджет сканирования.
  • Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.
  • <стр>Понимание этой механики помогает оптимизаторам и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов – – варианты, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.

Back To Top