Google делится дополнительной информацией об ограничениях сканирования Googlebot

Сканирование Googlebot ограничено с целью защиты инфраструктуры.
Ограничения сканирования являются гибкими и могут быть увеличены или уменьшены в зависимости от потребностей.
Чрезмерно большие документы создают дополнительную нагрузку на обработку.
Цена сканирования связана не только с пропускной способностью и отсутствием нарушения работы Интернета, но и с защитой инфраструктуры.

Google предоставил более подробную информацию об ограничениях сканирования Googlebot. Эти ограничения являются гибкими и могут быть увеличены или уменьшены.

Гэри Илайес и Мартин Сплитт из Google обсудили ограничения сканирования Googlebot, предоставив более подробную информацию о том, почему существуют ограничения, и раскрыв новую информацию о том, как эти ограничения можно увеличить или уменьшить в зависимости от потребностей и того, что достигается.

Подробнее об ограничениях для робота Google

<п>Гэри Иллиес поделился подробностями того, что происходит за кулисами Google, что определяет различные ограничения сканирования, начиная с ограничения Googlebot в 15 мегабайт.

Он сказал, что любой сканер в Google имеет ограничение в 15 мегабайт, и прямо сказал, что это ограничение можно обойти или отключить. Фактически, по его словам, команды внутри Google регулярно нарушают этот лимит. Он привел пример Google Search, который обходит это ограничение, уменьшая его до двух мегабайт.

Иллес объяснил:

“Я имею в виду, что есть куча вещей, которые предназначены для нашей собственной защиты или защиты нашей инфраструктуры. Как, например, пресловутый лимит в 15 мегабайт по умолчанию, установленный на уровне инфраструктуры.

<п>И, по сути, любой сканер, который не отменяет этот параметр, будет иметь ограничение в 15 мегабайт. По сути, он начинает получать байты с сервера или что-то еще, что сервер отправляет. И затем есть внутренний счетчик. А потом, когда он достиг 15 мегабайт, он практически перестает получать байты.

Я не знаю, закрывает соединение или нет. Я думаю, что это не закрывает соединение. Он просто отправляет на сервер ответ: «ОК, теперь вы можете остановиться». Я в порядке.

Но тогда отдельные команды могут это изменить. И это происходит. Это случается довольно часто. И, например, для поиска Google, а именно для поиска Google, ограничение переопределено до двух мегабайт.”

Ограничения робота Googlebot предназначены для защиты инфраструктуры

Иллес далее поделился примером, в котором ограничение в 15 мегабайт переопределяется для увеличения лимита сканирования, в данном случае для PDF-файлов. Здесь он упоминает ограничения Googlebot в контексте защиты инфраструктуры Google от перегрузки слишком большим объемом данных.

Он предложил более подробную информацию:

“Ну, в основном всё. Как, например, для PDF-файлов это, я не знаю, 64 или что-то в этом роде. Поскольку PDF-файлы, как и стандарт HTTP, могут, если вы экспортируете их в формате PDF, я думаю, вы говорили, что если вы экспортируете их в формате PDF, то их размер составит 96 мегабайт или что-то в этом роде.

<п>Но это означает, что наша инфраструктура перегрузится, если мы получим все это целиком, а затем преобразуем его в HTML, бла-бла, а затем начнем его обрабатывать.
Это просто ошеломляет, потому что здесь так много данных.

И то же самое касается HTML. Это стандарт жизни HTML. Например, если у вас есть около 14 мегабайт, мы не будем их получать. Мы собираемся получить отдельные страницы, потому что, к счастью, у них также было достаточно умственных способностей, чтобы создать отдельные страницы для отдельных функций HTML. Мы можем получить эти страницы, но мы не получим ничего полезного от 14-мегабайтного пейджера стандарта HTML.”

У других сканеров Google другие ограничения

На этом этапе Иллиес обнаружил, что другие сканеры Google имеют другие ограничения и что задокументированные ограничения не являются жесткими ограничениями для всех сканеров Google.

Он продолжил:

“Так что да, и с другими сканерами я никогда не работал над другими сканерами, но у других сканеров, я уверен, другие настройки. I could imagine, for example, even in individual projects, it can have different settings for the same thing.

Как, например, я могу себе представить, что если нам нужно что-то очень быстро проиндексировать, то предел усечения может составлять, например, один мегабайт. Я не знаю, так ли это, но могу себе представить, что это так. Потому что, если вам нужно протолкнуть что-то через конвейер индексации за считанные секунды, то с небольшим объемом данных легче справиться.”

Сканирующая инфраструктура Google не монолитна

Эта часть эпизода Search Off The Record завершилась тем, что Мартин Сплитт подтвердил, что инфраструктура сканирования Google является гибкой и гораздо более разнообразной, чем то, что описано в документации Google, заявив, что она не монолитна. Монолитный буквально означает массивную каменную скалу и используется для описания чего-то неизменного и последовательного. Говоря, что сканеры Google не являются монолитными, Сплитт подтверждает, что они гибки с точки зрения ограничений на выборку и других конфигураций.

<п>Он также сосредоточился на описании инфраструктуры сканирования Google как программного обеспечения как услуги.

Сплитт подвел итоги:

“Это правда. Это правда. Я думаю, что в целом полезно прояснить идею о том, что ползание просто представляет собой монолитную вещь. Это больше похоже на программное обеспечение как на услугу, в которой поиск, или, в частности, веб-поиск, представляет собой единый клиент, а не монолитную вещь.

И, как вы сказали, конфигурация может измениться. Это может даже измениться, скажем, в роботе Googlebot. Если я ищу изображение, я думаю, мы, вероятно, разрешаем изображениям размером более 2 мегабайт, потому что изображения легко превышают 2 мегабайта. PDF-файлы позволяют 64. Что бы ни было задокументировано, мы предоставим ссылку на документацию. Но я думаю, что это имеет смысл.

И если вы думаете об этом как о сервисе, который мы вызываем с кучей параметров, тогда имеет гораздо больше смысла увидеть, ОК, значит, есть другая конфигурация. И эта конфигурация может меняться на уровне запроса, а не обязательно просто, например, робот Googlebot всегда один и тот же.”

Слушайте эпизод Search Off The Record с 20-й минуты: