Hostinger проанализировал 66,7 млрд запросов ботов на более чем 5 млн размещенных сайтов и обнаружил, что обучающие ИИ-сканеры блокируются чаще, в то время как поисковый бот OpenAI расширяется.
- Журналы Hostinger показывают, что все больше сайтов блокируют сканеры для обучения ИИ, такие как GPTBot. ли>
- Помощник и поисковые роботы получают доступ, включая поисковый бот OpenAI. ли>
- Традиционные поисковые роботы выглядели относительно стабильно в тех же окнах.
мкл>
Hostinger проанализировал 66 миллиардов запросов ботов на более чем 5 миллионах веб-сайтов и обнаружил, что роботы с искусственным интеллектом идут двумя разными путями.
<п>Боты для обучения LLM теряют доступ к сети, поскольку все больше сайтов их блокируют. Между тем, боты-помощники с искусственным интеллектом, которые используются в таких инструментах поиска, как ChatGPT, расширяют сферу своей деятельности.
Анализ основан на анонимных журналах сервера за три 6-дневных окна, при этом классификация ботов сопоставлена с классификациями проектов AI.txt.
Обучающие боты блокируются
Самый убедительный вывод касается GPTBot OpenAI, который собирает данные для обучения модели. За период исследования охват веб-сайта упал с 84% до 12%.
ExternalAgent компании Meta был крупнейшим сканером категорий обучения по объему запросов в данных Hostinger. Хостингер говорит, что эта группа обучающих ботов в целом демонстрирует самый сильный спад, отчасти из-за того, что сайты блокируют обучающие роботы с искусственным интеллектом.
Эти цифры соответствуют закономерностям, которые я отслеживал в ходе многочисленных исследований. BuzzStream обнаружил, что 79% ведущих издателей новостей теперь блокируют хотя бы одного обучающего бота. Обзор Cloudflare за год показал, что GPTBot, ClaudeBot и CCBot имеют наибольшее количество директив полного запрета на ведущих доменах.
Данные количественно отражают то, что предложили эти исследования. Hostinger интерпретирует снижение охвата обучающих ботов как признак того, что все больше сайтов блокируют этих сканеров, даже если объемы запросов остаются высокими.
Боты-помощники рассказывают другую историю
В то время как обучающие боты сталкиваются с сопротивлением, боты, используемые в инструментах поиска ИИ, расширяют доступ.
<п>OAI-SearchBot OpenAI, который извлекает контент для функции поиска ChatGPT, достиг среднего охвата 55,67%. Бот TikTok вырос до 25,67% охвата с 1,4 миллиарда запросов. Бот Apple достиг охвата 24,33%.
Эти вспомогательные обходы инициируются пользователем и более целенаправленны. Они обслуживают пользователей напрямую, а не собирают обучающие данные, что может объяснить, почему сайты относятся к ним по-разному.
Классический поиск остается стабильным
<п>Традиционные сканеры поисковых систем оставались стабильными на протяжении всего исследования. Googlebot поддерживал средний охват 72% при 14,7 миллиардах запросов. Охват Bingbot остался на уровне 57,67%.
Стабильность контрастирует с изменениями в категории ИИ. Главный сканер Google находится в уникальном положении, поскольку его блокировка влияет на видимость в результатах поиска.
Инструменты SEO показывают снижение
SEO и маркетинговые сканеры заметили снижение охвата. Ahrefs сохранил наибольшую долю присутствия — 60% охвата, но в целом категория сократилась. Hostinger объясняет это двумя факторами. Эти инструменты все чаще ориентированы на сайты, активно выполняющие SEO-работу. А владельцы веб-сайтов блокируют ресурсоемкие сканеры.
Почему это важно
<п>Данные подтверждают закономерность, сложившуюся за последний год. Операторы сайтов проводят грань между поисковыми роботами с искусственным интеллектом, которые им разрешены, и теми, которые им запрещены.
Решение зависит от функции. Обучающие боты собирают контент для улучшения моделей, не отправляя трафик обратно. Боты-помощники извлекают контент, чтобы ответить на конкретные вопросы пользователей, а это значит, что они могут отображать ваш контент в результатах поиска ИИ.
Hostinger предлагает средний путь: блокировать обучающих ботов, одновременно разрешая ботам-помощникам, которые способствуют обнаружению. Это позволяет вам участвовать в поиске ИИ, не участвуя в обучении модели.
<ч3>Взгляд в будущееч3>
OpenAI рекомендует разрешить OAI-SearchBot, если вы хотите, чтобы ваш сайт появлялся в результатах поиска ChatGPT, даже если вы заблокировали GPTBot.
Документация OpenAI поясняет разницу. OAI-SearchBot контролирует включение в результаты поиска ChatGPT и учитывает файл robots.txt. ChatGPT-User обрабатывает просмотр, инициированный пользователем, и не может управляться файлом robots.txt таким же образом.
Hostinger рекомендует проверять журналы сервера, чтобы узнать, что на самом деле попадает на ваш сайт, а затем принимать решения о блокировке в зависимости от ваших целей. Если вас беспокоит нагрузка на сервер, вы можете использовать блокировку на уровне CDN. Если вы хотите потенциально увеличить видимость вашего ИИ, просмотрите текущие пользовательские агенты сканера ИИ и разрешите использовать только определенных ботов, которые поддерживают вашу стратегию.
