Google выпустил нового бота для коммерческих клиентов с искусственным интеллектом и документацию для владельцев сайтов, позволяющую отслеживать его посещения
Google незаметно добавил в документацию своего сканера нового бота, который сканирует от имени коммерческих клиентов их продукта Vertex AI. Похоже, что новый сканер может сканировать только сайты, контролируемые владельцами сайтов, но в документации этот момент не совсем ясен.
<ч2>Агенты Vertex AIч2> <п>Google-CloudVertexBot, новый сканер, поглощает контент веб-сайта для клиентов Vertex AI, в отличие от других ботов, перечисленных в документации Search Central, которые привязаны к поиску Google или рекламе.
Официальная документация Google Cloud содержит следующую информацию:
“В Vertex AI Agent Builder существуют различные виды хранилищ данных. Хранилище данных может содержать только один тип данных.”
Далее перечисляются шесть типов данных, один из которых — данные общедоступных веб-сайтов. При сканировании в документации говорится, что существует два типа сканирования веб-сайтов с ограничениями, специфичными для каждого вида.
<ол> <ли>Базовая индексация веб-сайта
ол>
Документация сбивает с толку
В документации поясняются данные веб-сайта:
“Хранилище данных с данными веб-сайтов использует данные, проиндексированные с общедоступных веб-сайтов. Вы можете предоставить набор доменов и настроить поиск или рекомендации по данным, полученным с этих доменов. Эти данные включают в себя текст и изображения, помеченные метаданными.”
<п>В приведенном выше описании ничего не говорится о проверке доменов. В описании базового индексирования веб-сайтов также ничего не говорится о проверке владельца сайта.
Но в документации по расширенному индексированию веб-сайтов сказано, что требуется проверка домена, а также налагаются квоты на индексацию.
Однако в документации самого сканера указано, что новый сканер сканирует “владельцев сайтов’ запрос” так что, возможно, он не будет сканировать общедоступные сайты.
<п>А теперь самое запутанное: запись в журнале изменений для этого нового сканера указывает на то, что новый сканер может очистить ваш сайт.
Вот что написано в журнале изменений:
“Новый сканер был представлен, чтобы помочь владельцам сайтов идентифицировать новый трафик сканера.”
Новый сканер Google
Новый сканер называется Google-CloudVertexBot.
Это новая информация:
“Google-CloudVertexBot сканирует сайты владельцев сайтов’ запрос при создании агентов Vertex AI.
Токены пользовательского агента
<ул>
Google CloudVertexBot Googlebot” мл>
Подстрока пользовательского агента
Google-CloudVertexBot
Непонятная документация
В документации указано, что новый сканер не индексирует общедоступные сайты, но в журнале изменений указано, что он был добавлен для того, чтобы владельцы сайтов могли идентифицировать трафик от нового сканера. Если вы на всякий случай заблокируете новый сканер с помощью файла robots.txt?, это вполне разумно, учитывая, что в документации довольно неясно, он сканирует только те домены, которые подтверждены как находящиеся под контролем объекта, инициирующего сканирование.