Гэри Иллис из Google предлагает откровенный обзор робота Googlebot, объясняя, что существуют сотни сканеров, которые не задокументированы публично.
<п>Гэри Иллис и Мартин Сплитт из Google опубликовали подкаст о роботе Googlebot, объяснив, что это не просто отдельная вещь, а сотни сканеров различных продуктов и услуг, большинство из которых публично не документированы.
Что такое робот Google
Гэри поясняет, что имя “Googlebot” — это историческое название, возникшее в те времена, когда у Google был только один сканер. Сейчас это уже не так, потому что Google использует множество сканеров для разных продуктов, но название Googlebot прижилось, хотя это уже не одно и то же.
Далее он объясняет, что Googlebot — это не сама инфраструктура сканирования или отдельная система. Googlebot на самом деле представляет собой один клиент, взаимодействующий с более крупной внутренней службой сканирования — инфраструктурой.
Мартин Сплитт спросил:
“Как я могу представить робота Google? Как примерно выглядит наша инфраструктура сканирования?”
Гэри ответил:
“Я имею в виду, что называть его роботом Googlebot – это неправильное употребление. И это то, что еще в те времена, возможно, в начале 2000-х, это работало хорошо, потому что тогда у нас, вероятно, был один сканер, потому что у нас был один продукт. Но вскоре после того, как появился другой продукт, я думаю, это был AdWords. А потом у нас стало появляться больше сканеров, потом появилось больше продуктов, потом больше сканеров, а затем еще больше сканеров.
<п>Но имя Googlebot каким-то образом прижилось. Обычно, когда мы говорили о нашей инфраструктуре сканирования в целом, мы обычно называли ее Googlebot, но это было совершенно неточно, потому что Googlebot был всего лишь одним из объектов, которые взаимодействовали с нашей инфраструктурой сканирования.”
У краулинговой инфраструктуры есть имя
<стр>Гэри далее объясняет, что инфраструктура сканирования имеет внутреннее имя в Google, но он отказался сказать, какое это имя.
Он продолжил:
<блоковая цитата><п>“Googlebot не является нашей инфраструктурой сканирования. Наша инфраструктура сканера не имеет внешнего имени. Имеет внутреннее имя. Неважно, что это такое. Назовем его Джеком. И это так, я не знаю, как это сказать. Если хотите, это программное обеспечение как услуга. SaaS. Верно?, значит, у Джека есть конечные точки API, так сказать. А затем вы можете вызвать эти конечные точки API для получения данных из Интернета.
И затем, когда вы выполняете эти вызовы API, вам также необходимо указать некоторые параметры, например, как долго вы готовы ждать, чтобы байты вернулись или какой ваш пользовательский агент вы хотите отправить? Каков токен продукта robots.txt, которому вы хотите подчиняться, и все эти параметры.
И мы устанавливаем параметры по умолчанию для большинства из этих вещей, не для всех, но для большинства из них. Таким образом, вы, как правило, можете их опустить, что, я думаю, упрощает эти вызовы, поскольку вам не нужно указывать все необходимое. Но в остальном это всего лишь вызов API к чему-то в облаке или в каком-то случайном центре обработки данных. И тогда это выполнит выборку для вас как разработчика программного обеспечения или продукта.
<п>Итак, этот продукт, потому что на данный момент мы можем назвать его продуктом, даже если он внутренний, существует уже очень, очень, очень, очень долгое время. …Но, по сути, он всегда делал одно и то же. По сути, вы говорите: возьмите что-нибудь из Интернета, не нарушая Интернет. И тогда он это сделает, если ограничения на сайте позволят это сделать. Вот и все. Например, если бы я хотел выразить это в одном предложении, это было бы так.”
<х2>Сотни поисковых роботов, оптимизаторы поисковых систем не знают о
Не все сканеры Googlebot документированы, о многих оптимизаторы не знают. Гэри рассказал, что многие внутренние команды Google используют инфраструктуру сканирования для разных целей. Он сказал, что потенциально существуют десятки или сотни внутренних сканеров, но публично документированы только основные сканеры.
Меньшие или малообъемные сканеры часто не документируются из-за практических ограничений, но если сканер становится достаточно большим, его можно просмотреть и задокументировать.
Поднимая тему существования нескольких клиентов (сканеров), Гэри продолжил:
<блоковая цитата><п>“…мы пытаемся задокументировать большую часть из них, но Google — крупная компания, поэтому есть много команд, которые хотят получить данные из Интернета. Итак, существует множество сканеров, множество именованных сканеров, а это означает, что нам придется документировать десятки, если не сотни различных сканеров, специальных сканеров или выборок.
Гэри объясняет, что документирование сотен сканеров невозможно. эм>п>
“А на простой HTML-странице это практически невозможно. Итак, мы как бы пытаемся подвести черту и сказать, что если сканер действительно крошечный, а это означает, что он не получает слишком много из Интернета, то мы стараемся не документировать это, потому что недвижимость на сайте сканера, слэш-сканерыdevelopers.google.com, на самом деле весьма ценна.
<п>Мы могли бы попытаться решить эту проблему по-другому, но на данный момент документированы в основном только основные сканеры, специальные сканеры и выборки, потому что буквально из-за нехватки места.”
Разница между сканерами и сборщиками
<стр>Гэри объясняет, что существуют сканеры и сборщики данных, которые попадают в категорию роботов Google, но на самом деле это разные вещи.
Он объясняет, в чем разница:
<блоковая цитата><п>“Итак, самый простой способ объяснить это заключается в том, что сканеры выполняют работу в пакетном режиме, а затем сборщики работают на основе отдельных URL-адресов. Это означает, что вы передаете URL-адрес сборщику, а затем он извлекает только один URL-адрес. Вы не можете предоставить ему список URL-адресов для получения.
И затем для сканеров это постоянный поток URL-адресов, который постоянно работает для вашей команды и получает данные для вашей команды из Интернета.
И внутри нас также есть политика, согласно которой выборка должна каким-то образом контролироваться пользователем. По сути, на другом конце есть кто-то, кто ждет ответа от сборщика.
А с сканерами лучше делать это, когда есть время.”
Мартин и Гэри говорят, что они используют множество сканеров и сборщиков данных, которые не документированы. Гэри объяснил, что у него есть инструмент, который выдает оповещение, когда сканер и сборщик пересекают определенный порог сканирования и выборки в день, после чего он свяжется с командой, ответственной за сканирование, чтобы узнать, что он делает и почему, а также убедиться, что он не делает что-то случайно. Если это сканер, который заметно извлекает множество URL-адресов, он решает, документировать ли это, чтобы веб-экосистема могла знать об этом.
Слушайте подкаст Search Off The Record здесь:
