Google объясняет ограничения в байтах робота Googlebot и архитектуру сканирования

Googlebot — это один из клиентов централизованной платформы сканирования.
Платформа сканирования используется Google Shopping, AdSense и другими продуктами.
Когда размер страницы превышает 2 МБ, робот Google прекращает загрузку данных и передает усеченный контент в системы индексирования.
Гэри Иллис из Google опубликовал сообщение в блоге, объясняющее, как Googlebot работает как один из клиентов централизованной платформы сканирования, с новыми подробностями на уровне байтов.

Гэри Иллис из Google опубликовал сообщение в блоге, в котором объясняет, как работают системы сканирования Googlebot. В посте рассматриваются ограничения в байтах, поведение частичной выборки и организация инфраструктуры сканирования Google.

<стр>Пост ссылается на 105-й эпизод подкаста Search Off the Record, где Иллис и Мартин Сплитт обсуждали одни и те же темы. Иллиес добавляет более подробную информацию об архитектуре сканирования и поведении на уровне байтов.

<ч2>Что нового <х3>Googlebot — один из клиентов общей платформы
Иллес описывает Googlebot как «просто пользователя чего-то, напоминающего централизованную платформу сканирования».

Google Покупки, AdSense и другие продукты отправляют запросы на сканирование через одну и ту же систему под разными именами сканеров. Каждый клиент устанавливает свою собственную конфигурацию, включая строку пользовательского агента, токены robots.txt и ограничения в байтах.

Когда Googlebot появляется в журналах сервера, это Google Search. Другие клиенты отображаются под собственными именами сканеров, которые Google указывает на своем сайте документации для сканеров.

Как на практике работает ограничение в 2 МБ

Googlebot извлекает до 2 МБ для любого URL-адреса, за исключением PDF-файлов. PDF-файлы имеют ограничение в 64 МБ. Поисковые роботы, которые не указывают ограничение по умолчанию в 15 МБ.

Иллиес добавляет несколько подробностей о том, что происходит на уровне байтов.

Он говорит, что заголовки HTTP-запросов учитываются при достижении ограничения в 2 МБ. Если размер страницы превышает 2 МБ, робот Googlebot не отклоняет ее. Сканер останавливается на отсечке и отправляет усеченный контент в системы индексирования Google и службу веб-рендеринга (WRS).

Эти системы рассматривают усеченный файл как полный. Все, что превышает 2 МБ, никогда не извлекается, не отображается и не индексируется.

<п>Каждый внешний ресурс, на который есть ссылка в HTML, например файлы CSS и JavaScript, извлекается с помощью собственного отдельного счетчика байтов. Эти файлы не учитываются при расчете размера 2 МБ родительской страницы. Медиа-файлы, шрифты и то, что Google называет «несколько экзотических файлов»; не извлекаются WRS.

Рендеринг после выборки

WRS обрабатывает JavaScript и выполняет код на стороне клиента, чтобы понять содержимое и структуру страницы. Он обрабатывает запросы JavaScript, CSS и XHR, но не запрашивает изображения или видео.

<п>Иллиес также отмечает, что WRS работает без сохранения состояния, очищая локальное хранилище и данные сеанса между запросами. Документация Google по устранению неполадок JavaScript описывает последствия для сайтов, зависящих от JavaScript.

Лучшие практики, как не выходить за пределы лимита

Google рекомендует переносить тяжелые CSS и JavaScript во внешние файлы, поскольку они имеют свои собственные ограничения в байтах. Мета-теги, теги заголовков, элементы ссылок, канонические элементы и структурированные данные должны располагаться выше в HTML. На больших страницах контент, размещенный ниже в документе, рискует упасть ниже границы обрезки.

Иллиес отмечает встроенные изображения в формате Base64, большие блоки встроенного CSS или JavaScript и слишком большие меню как примеры того, что может привести к увеличению размера страниц за пределы 2 МБ.

Ограничение в 2 МБ “не установлено в камне и может меняться со временем по мере развития Интернета и увеличения размера HTML-страниц.”

Почему это важно

Предел в 2 МБ и лимит PDF в 64 МБ впервые были задокументированы как цифры, специфичные для робота Google, в феврале. Данные HTTP-архива показали, что большинство страниц находятся значительно ниже порогового значения. Эта запись в блоге добавляет технический контекст этих цифр.

Описание платформы объясняет, почему разные сканеры Google ведут себя по-разному в журналах сервера и почему значение по умолчанию в 15 МБ отличается от ограничения Googlebot в 2 МБ. Это отдельные настройки для разных клиентов.

Детали HTTP-заголовка важны для страниц, близких к пределу. Заголовки заявлений Google занимают часть лимита в 2 МБ вместе с данными HTML. На большинство сайтов это не повлияет, но страницы с большими заголовками и раздутой разметкой могут достичь предела раньше.

<ч2>Взгляд в будущее

Google теперь уточнил ограничения сканирования робота Googlebot в обновлениях документации, выпуске подкаста и специальной публикации в блоге в течение двухмесячного периода. Иллиес’ Обратите внимание, что предел может меняться со временем, что означает, что эти цифры не являются постоянными.

Для сайтов со стандартными HTML-страницами ограничение в 2 МБ не является проблемой. Страницы с большим количеством встроенного контента, встроенными данными или слишком большой навигацией должны проверять, находится ли их критический контент в пределах первых 2 МБ ответа.