- Googlebot — это один из клиентов централизованной платформы сканирования. ли>
- Платформа сканирования используется Google Shopping, AdSense и другими продуктами. ли>
- Когда размер страницы превышает 2 МБ, робот Google прекращает загрузку данных и передает усеченный контент в системы индексирования. ли> мл>
Гэри Иллис из Google опубликовал сообщение в блоге, объясняющее, как Googlebot работает как один из клиентов централизованной платформы сканирования, с новыми подробностями на уровне байтов.
Гэри Иллис из Google опубликовал сообщение в блоге, в котором объясняет, как работают системы сканирования Googlebot. В посте рассматриваются ограничения в байтах, поведение частичной выборки и организация инфраструктуры сканирования Google.
<стр>Пост ссылается на 105-й эпизод подкаста Search Off the Record, где Иллис и Мартин Сплитт обсуждали одни и те же темы. Иллиес добавляет более подробную информацию об архитектуре сканирования и поведении на уровне байтов.
<ч2>Что новогоч2> <х3>Googlebot — один из клиентов общей платформы
Иллес описывает Googlebot как «просто пользователя чего-то, напоминающего централизованную платформу сканирования».
Google Покупки, AdSense и другие продукты отправляют запросы на сканирование через одну и ту же систему под разными именами сканеров. Каждый клиент устанавливает свою собственную конфигурацию, включая строку пользовательского агента, токены robots.txt и ограничения в байтах.
Когда Googlebot появляется в журналах сервера, это Google Search. Другие клиенты отображаются под собственными именами сканеров, которые Google указывает на своем сайте документации для сканеров.
Как на практике работает ограничение в 2 МБ
Googlebot извлекает до 2 МБ для любого URL-адреса, за исключением PDF-файлов. PDF-файлы имеют ограничение в 64 МБ. Поисковые роботы, которые не указывают ограничение по умолчанию в 15 МБ.
Иллиес добавляет несколько подробностей о том, что происходит на уровне байтов.
Он говорит, что заголовки HTTP-запросов учитываются при достижении ограничения в 2 МБ. Если размер страницы превышает 2 МБ, робот Googlebot не отклоняет ее. Сканер останавливается на отсечке и отправляет усеченный контент в системы индексирования Google и службу веб-рендеринга (WRS).
Эти системы рассматривают усеченный файл как полный. Все, что превышает 2 МБ, никогда не извлекается, не отображается и не индексируется.
<п>Каждый внешний ресурс, на который есть ссылка в HTML, например файлы CSS и JavaScript, извлекается с помощью собственного отдельного счетчика байтов. Эти файлы не учитываются при расчете размера 2 МБ родительской страницы. Медиа-файлы, шрифты и то, что Google называет «несколько экзотических файлов»; не извлекаются WRS.
Рендеринг после выборки
WRS обрабатывает JavaScript и выполняет код на стороне клиента, чтобы понять содержимое и структуру страницы. Он обрабатывает запросы JavaScript, CSS и XHR, но не запрашивает изображения или видео.
<п>Иллиес также отмечает, что WRS работает без сохранения состояния, очищая локальное хранилище и данные сеанса между запросами. Документация Google по устранению неполадок JavaScript описывает последствия для сайтов, зависящих от JavaScript.
Лучшие практики, как не выходить за пределы лимита
Google рекомендует переносить тяжелые CSS и JavaScript во внешние файлы, поскольку они имеют свои собственные ограничения в байтах. Мета-теги, теги заголовков, элементы ссылок, канонические элементы и структурированные данные должны располагаться выше в HTML. На больших страницах контент, размещенный ниже в документе, рискует упасть ниже границы обрезки.
Иллиес отмечает встроенные изображения в формате Base64, большие блоки встроенного CSS или JavaScript и слишком большие меню как примеры того, что может привести к увеличению размера страниц за пределы 2 МБ.
Ограничение в 2 МБ “не установлено в камне и может меняться со временем по мере развития Интернета и увеличения размера HTML-страниц.”
Почему это важно
Предел в 2 МБ и лимит PDF в 64 МБ впервые были задокументированы как цифры, специфичные для робота Google, в феврале. Данные HTTP-архива показали, что большинство страниц находятся значительно ниже порогового значения. Эта запись в блоге добавляет технический контекст этих цифр.
Описание платформы объясняет, почему разные сканеры Google ведут себя по-разному в журналах сервера и почему значение по умолчанию в 15 МБ отличается от ограничения Googlebot в 2 МБ. Это отдельные настройки для разных клиентов.
Детали HTTP-заголовка важны для страниц, близких к пределу. Заголовки заявлений Google занимают часть лимита в 2 МБ вместе с данными HTML. На большинство сайтов это не повлияет, но страницы с большими заголовками и раздутой разметкой могут достичь предела раньше.
<ч2>Взгляд в будущееч2>
Google теперь уточнил ограничения сканирования робота Googlebot в обновлениях документации, выпуске подкаста и специальной публикации в блоге в течение двухмесячного периода. Иллиес’ Обратите внимание, что предел может меняться со временем, что означает, что эти цифры не являются постоянными.
Для сайтов со стандартными HTML-страницами ограничение в 2 МБ не является проблемой. Страницы с большим количеством встроенного контента, встроенными данными или слишком большой навигацией должны проверять, находится ли их критический контент в пределах первых 2 МБ ответа.
