Google рекомендует размещать ресурсы веб-сайта на CDN или поддоменах, чтобы сохранить бюджет сканирования основного сайта и улучшить его индексацию.
- Робот Googlebot кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша. ли>
- Использование CDN для ресурсов может помочь сохранить бюджет сканирования вашего сайта. ли>
- Блокировка ресурсов в файле robots.txt может навредить способности Google отображать и ранжировать страницы. ли> мкл>
Центр поиска Google запустил новую серию под названием “Crawling October” чтобы получить представление о том, как робот Googlebot сканирует и индексирует веб-страницы.
Google будет публиковать новую статью каждую неделю в этом месяце, в которой рассматриваются различные аспекты процесса сканирования, которые не часто обсуждаются, но могут существенно повлиять на сканирование веб-сайтов.
<стр>Первый пост серии посвящен основам сканирования и проливает свет на важные, но менее известные подробности о том, как робот Googlebot обрабатывает ресурсы страниц и управляет бюджетом сканирования.стр>
Основы сканирования
Сегодняшние веб-сайты сложны из-за продвинутого JavaScript и CSS, что делает их труднее сканировать, чем старые страницы, состоящие только из HTML. Робот Googlebot работает как веб-браузер, но по другому графику.
Когда робот Googlebot посещает веб-страницу, он сначала загружает HTML-код с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-рендеринга Google (WRS) использует Googlebot для загрузки этих ресурсов и создания окончательного вида страницы.
<п>Вот шаги по порядку:
<ол>
- Первоначальная загрузка HTML
- Обработка службой веб-рендеринга
- Извлечение ресурсов
- Построение последней страницы
- <сильный>Уменьшение использования ресурсовсильный>: используйте меньше ресурсов для создания хорошего пользовательского опыта. Это помогает сэкономить бюджет сканирования при рендеринге страницы.
- Ресурсы хоста отдельно: размещайте ресурсы на другом имени хоста, например, в CDN или субдомене. Это может помочь переложить нагрузку на краулинговый бюджет с вашего основного сайта.
- Используйте параметры очистки кэша с умом: Будьте осторожны с параметрами очистки кэша. Изменение URL-адресов ресурсов может заставить Google перепроверить их, даже если содержание осталось прежним. Это может привести к потере вашего краулингового бюджета.
- Управление ресурсами напрямую влияет на ваш краулинговый бюджет, поэтому размещение скриптов и стилей на CDN может помочь его сохранить.
- Google кэширует ресурсы в течение 30 дней независимо от настроек HTTP-кеша, что помогает экономить бюджет сканирования.
- Блокировка критически важных ресурсов в файле robots.txt может иметь неприятные последствия, поскольку Google не сможет правильно отображать ваши страницы.
ол> <ч2>Управление бюджетом сканированияч2>
Сканирование дополнительных ресурсов может сократить бюджет сканирования основного сайта. Чтобы помочь в этом, Google заявляет, что “WRS пытается кэшировать каждый ресурс (JavaScript и CSS), используемый на отображаемых страницах.”
Важно отметить, что кэш WRS сохраняется до 30 дней и не зависит от правил HTTP-кэширования, установленных разработчиками.
Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.
<ч3>Рекомендациич3> <стр>В этом посте владельцы сайтов получают советы о том, как оптимизировать краулинговый бюджет:стр> <ол>
ол>
Кроме того, Google предупреждает, что блокирование сканирования ресурсов с помощью файла robots.txt может быть рискованным.
Если Google не может получить доступ к необходимому ресурсу для рендеринга, у него могут возникнуть проблемы с получением содержимого страницы и его правильным ранжированием.
Инструменты мониторинга
Команда Search Central утверждает, что лучший способ узнать, какие ресурсы сканирует робот Googlebot, — это проверить необработанные журналы доступа к сайту.
Вы можете идентифицировать Googlebot по его IP-адресу, используя диапазоны, опубликованные в документации разработчика Google.
Почему это важно
В этом посте разъясняются три ключевых момента, которые влияют на то, как Google находит и обрабатывает контент вашего сайта:
<ул>
мкл> <стр>Понимание этой механики помогает оптимизаторам и разработчикам принимать более обоснованные решения относительно хостинга и доступности ресурсов – – варианты, которые напрямую влияют на то, насколько хорошо Google может сканировать и индексировать их сайты.