Должен ли я блокировать роботов с искусственным интеллектом или сначала оценить их ценность ?

<стр>Узнайте, как идентифицировать роботов-ИИ, посещающих ваш сайт, измерить их ценность с помощью реферального трафика и цитирований, а также решить, блокировать или разрешить их.

<стр>Сегодняшний вопрос выходит за рамки типичных целей увеличения трафика, связанных с видимостью ИИ, и рассматривает ценность, которую эти большие языковые модели предоставляют владельцу веб-сайта, и спрашивает:

“Сканеры с искусственным интеллектом все чаще посещают мой сайт, но я не могу сказать, приносят ли они какую-либо пользу. Должен ли я разрешить их, заблокировать их или по-разному относиться к различным ИИ-сканерам? Как я могу оценить, приводит ли их деятельность к цитированию, реферальному трафику или конверсиям, прежде чем принимать это решение?”

<п>Многие SEO-специалисты не осознают, во что обходятся боты, посещающие их сайт. В последнее время, с распространением ИИ-ботов, затраты на предоставление всем и каждому доступа к вашему контенту становятся дорогим бизнесом.

Типы ИИ-краулеров

<стр>Во-первых, давайте посмотрим на различные типы ботов, посещающих веб-сайт.

Обычными ботами, которые будут регулярно посещать веб-сайт, являются те, которым мы хотим предоставить доступ к нашему сайту, например боты поисковых систем. Это не единственные боты, но зачастую они являются одними из самых активных потребителей пропускной способности. Помимо поисковых ботов, будут инструменты. К ним могут относиться боты из мониторов работоспособности, инструменты поиска и аналитики, а также сканеры безопасности и уязвимостей.

В целом, владельцы веб-сайтов должны решить, следует ли разрешить ботам, посещающим их сайт, продолжать работу или они приносят больше вреда, чем пользы. Примерами ботов, которых менеджеры сайтов часто блокируют, являются те, которые пытаются получить информацию о продукте для загрузки в базу данных другого веб-сайта, или вредоносные боты, ищущие уязвимости входа в систему. Блокировать этих ботов или нет — довольно простое решение – они представляют угрозу интеллектуальной собственности бренда или безопасности веб-сайта.

ИИ-боты на самом деле могут оказаться где-то посередине между этими “хорошими” и “плохо” боты.

Обучающие боты ИИ

Эти боты, например, GPTBot от OpenAI, прочесывают Интернет в поисках информации для создания моделей обучения ИИ. Они помогают создать базу знаний, на которой учатся студенты LLM, включая сущности и то, как они связаны друг с другом. <п>Для многих владельцев веб-сайтов это самые противоречивые роботы с искусственным интеллектом. Их основная цель — не направлять трафик обратно на ваш сайт, а «читать»; и собирать информацию, которая может быть использована для обучения и улучшения моделей. В некоторых случаях этот контент может позже использоваться для ответов на вопросы пользователей без посещения первоисточника. Из-за этого становится сложнее провести прямую линию между активностью сканера и ценностью для бизнеса.

Поисковые индексирующие боты

Эти боты, например, OAI-SearchBot от OpenAI, просматривают страницы и собирают информацию для отображения веб-сайтов и ссылок на них в LLM «результатах поиска», ” не тренировать базовые модели.

Такое разрешение зачастую легче оправдать, поскольку его цель ближе к цели традиционной поисковой системы. Если они индексируют ваш контент, чтобы его можно было цитировать в ответах, генерируемых ИИ, у них есть более очевидный путь к повышению видимости, реферальному трафику и узнаваемости бренда.

Выборка, инициируемая пользователем

<п>Эти боты, в том числе ChatGPT-User от OpenAI, извлекают страницы по запросу, когда пользователи спрашивают о конкретных веб-сайтах или документах, а не полагаются исключительно на заранее созданный индекс или базу знаний.

Эти выборки отражают подлинный интерес пользователей к вашему сайту. Они специально ищут дополнительную информацию или контекст вашего контента, бизнеса или продуктов. Это ценный индикатор их места в воронке продаж. Они уже узнали о вашем бренде и теперь глубже изучают ваш контент.

Как заблокировать ИИ-ботов

<п>OpenAI обновила свою документацию, так что ChatGPT-User, инициируемый пользователем сборщик данных, больше не обязан соблюдать файл robots.txt веб-сайта. Perplexity ведет себя аналогичным образом с Perplexity-User. Таким образом, файл robots.txt, который оптимизаторы уже много лет надежно используют для управления основными ботами, теперь блокирует только соответствующие обучающие и поисковые сканеры. Для ботов, запускаемых пользователем и не соответствующих требованиям, необходима блокировка на уровне сервера или WAF.

Блокировка уровня WAF

WAF (брандмауэр веб-приложений) располагается перед сервером веб-сайта и действует как контрольно-пропускная точка. WAF можно настроить так, чтобы разрешать только определенные боты или разрешать все боты, кроме исключенных. Это очень надежный способ предотвратить посещение веб-сайта нежелательными ботами.

<п>Хотя обычно это выходит за рамки компетенции SEO, возможно, вы знакомы с некоторыми брендами, предлагающими блокировку на уровне WAF, например Cloudflare и AWS. Если вы знаете, на каком технологическом стеке работает ваш веб-сайт, возможно, вы сможете изучить блокировку WAF, прежде чем представлять эту идею своей инфраструктурной команде. Однако у большинства крупных компаний уже есть множество ботов, которых они блокируют, поэтому корпоративные команды, скорее всего, будут иметь процесс добавления или удаления ботов из списков WAF.

Правила сервера

Правила могут быть добавлены непосредственно на ваш сервер, которые проверяют поступающий на него трафик и определяют, исходит ли он от небезопасного бота. Сервер проверит такие элементы, как, например, поступает ли запрос из источника с использованием автоматизации или отсутствуют правильные заголовки. Если он сочтет пользовательский агент небезопасным на основании правил, он не позволит боту попасть на сайт.

Риск блокировки всех ботов ИИ

<п>Вот в чем заключается дилемма. Некоторые боты с искусственным интеллектом собирают интеллектуальную собственность вашего сайта. Однако, если вы их заблокируете, это означает, что они не смогут упомянуть ваш бренд или продукты в своих ответах, что поставит вас в невыгодное конкурентное положение.

Основной риск блокировки ботов AI заключается в том, что ваш сайт больше не упоминается в ответах LLM. Учитывая небольшой объем реферального трафика, проходящие LLM, это может показаться риском, на который вы готовы пойти.

<п>Однако мы точно знаем, что, хотя LLM и не передают такой же объем трафика, как традиционные поисковые системы, они помогают повысить узнаваемость бренда. Если цитируется не ваш бренд, это означает, что цитируется бренд конкурента.

Что касается всего, что связано с ИИ, мы должны помнить, что эта область быстро развивается. LLM, возможно, сейчас не пропускают много трафика, но это не значит, что так будет всегда.

Кроме того, блокировка всех ботов ИИ лишает вас возможности тестировать и учиться. Если вы запретите каждому ИИ-сканеру получать доступ к вашему сайту, вы потеряете возможность понять, какие платформы обеспечивают видимость, какие точно цитируют ваш контент и какие потенциально могут стать значимыми источниками трафика в будущем.

Риск разрешения всех ботов с искусственным интеллектом

<п>Однако сегодня существует вполне реальная угроза, с которой сайты сталкиваются со стороны сканеров искусственного интеллекта. Два самых больших риска связаны с жестокостью, с которой боты сканируют и поглощают контент.

<ч3>Тренинг по интеллектуальной собственности

Многим владельцам веб-сайтов не нравится мысль о том, что собственный контент или активы могут быть использованы для улучшения модели ИИ без какой-либо прямой компенсации или указания авторства. Это одна из самых громких жалоб, которые мы слышим от SEO-специалистов – вы посещаете мой сайт, берете мой контент, но я не получаю взамен трафика.

Особую озабоченность вызывают издатели и предприятия, чьи конкурентные преимущества обусловлены уникальной информацией или активами. Если этот контент станет частью обучающих данных модели, у пользователей будет меньше необходимости посещать исходный веб-сайт.

Существует также риск того, что боты могут собирать данные или контент, которые на самом деле являются частью продукта или услуги. Для LLM переупаковка этой информации и использование ее в качестве ответа или генерации может оказаться разрушительной для бизнеса. Например, художники видят, что фотографии их работ загружаются в LLM и используются для создания изображений «в стиле»; свои собственные творения. Такое использование интеллектуальной собственности может напрямую повлиять на прибыль бизнеса.

<ч3>Стоимость сканирования <п>Эти затраты не всегда очевидны, поскольку они часто включаются в общую плату за хостинг. Однако в масштабе чрезмерное сканирование может увеличить потребление полосы пропускания и повлиять на работу реальных пользователей, если ресурсы станут ограниченными.

Для некоторых организаций прямые финансовые затраты на обслуживание ИИ-сканеров являются основным фактором, лежащим в основе решений об их ограничении или блокировке.

Как определить, какие боты посещают ваш сайт

<стр>Самым большим препятствием на пути к пониманию риска и выгоды для вашего бренда от ботов с искусственным интеллектом является знание того, какие боты вообще сканируют ваш сайт.

Эти данные не всегда легко найти. Давайте рассмотрим несколько способов определить, сканирует ли бот ваш сайт.

Файлы журналов

В файлах журналов, скорее всего, будут присутствовать всевозможные боты, и может потребоваться некоторое исследование, чтобы определить, какие из них являются сканерами ИИ. После того, как вы переведете информацию пользовательского агента во что-то более удобочитаемое, вам будет просто сложить количество обращений каждого бота и определить, какой процент от общего числа приходится на роботов с искусственным интеллектом.

Однако существует множество инструментов, которые автоматизируют это. Есть несколько типов, которые могут помочь в этом упражнении – традиционные анализаторы файлов журналов и инструменты отслеживания видимости AI.

<п>Анализаторы файлов журналов предоставят информацию о том, какие боты принадлежат традиционным поисковым системам, а какие — искусственному интеллекту. Инструменты оптимизации ИИ, которые в первую очередь предназначены для отслеживания и анализа видимости вашего сайта в LLM, часто также имеют функцию отслеживания агента ИИ на основе ваших файлов журналов.

Вам также следует попытаться понять, концентрируются ли конкретные боты на определенных разделах сайта. Сканер, неоднократно посещающий страницы продуктов, может указывать на то, что эти активы особенно ценны для платформы. Это может помочь узнать, разрешаете ли вы доступ ко всему сайту или устанавливаете более конкретные ограничения.

См. также: Современное руководство по роботам.txt: Как его использовать, избегая ошибок

<ч3>Реферальный трафик <п>Если у вас нет доступа к файлам журналов, вы все равно можете получить представление о том, какие боты посещали ваш сайт, по реферальному трафику, который они отправляют.

Просматривая в своем аналитическом программном обеспечении ссылки на источники, вы можете распознать часть как LLM, например ChatGPT или Perplexity. Google Analytics недавно внедрил новую классификацию каналов под названием «AI Assistant». Этот новый канал упрощает просмотр того, какие посетители нашли ваш сайт через LLM, но он распознает только ChatGPT, Gemini и Claude через заголовок реферера и не фиксирует Perplexity. Можно с уверенностью предположить, что если LLM процитировал ваш веб-сайт и предоставил посетителям ссылку, по которой они могут перейти, его бот в какой-то момент может получить ваш посещенный сайт.

Это не надежный метод просмотра всех ботов ИИ, посетивших ваш сайт, поскольку он выявляет только те платформы, которые отправили реферальный трафик в течение просматриваемого вами периода времени. Любой бот LLM, который просканировал ваш сайт, но не отправил реферальный трафик, останется вам неизвестным. Также возможно, что ссылка, которая направила трафик на ваш сайт, поступила из обучающих данных или кешированной версии вашей страницы. Однако, если вы действительно не можете получить доступ к данным файла журнала, это может дать вам примерное представление о ботах, посетивших ваш сайт.

Какие дополнительные данные вам нужны

<п>Помимо простого знания, посещал ли бот ваш сайт, необходимо знать, какое влияние оказало его посещение. Это означает, что вам нужно узнать из файлов журналов или целевых страниц реферального трафика, какие страницы просканировали ИИ-боты.

Эта информация даст вам лучшее представление о том, откуда боты собирают данные и являются ли эти страницы страницами, которые вы хотите или не хотите, чтобы они посещали.

<п>Потенциально наиболее важным моментом данных для этого анализа является стоимость посещения вашего сайта ботами с искусственным интеллектом. Скорее всего, эту информацию вам нужно будет получить от того, кто управляет сервером вашего веб-сайта. Они должны быть в состоянии сказать вам, какие боты сканируют сайт, поскольку они уже находятся на этапе, когда они рассматривают возможность их блокировки. Этот человек также должен быть в состоянии подсчитать, сколько денег стоит вашей компании разрешение ботам сканировать сайт. Это очень полезная информация, когда дело доходит до следующего этапа анализа – определение ценности ИИ-ботов.

Как измерить значение

Этот следующий шаг имеет решающее значение в процессе принятия решений. Вопрос о том, разрешить, заблокировать или ограничить доступ ИИ-бота к вашему сайту, зависит от ценности, которую эти боты предоставляют.

<п>Большинство владельцев веб-сайтов знают, что LLM не направляют на веб-сайты столько трафика, сколько традиционные поисковые системы. Однако данные Cloudflare за июнь 2025 года показывают, что на каждое посещение веб-сайта Клод из Anthropic будет совершать 70 900 запросов страниц, тогда как для Google это соотношение составляет 9,4:1. Этот метод “сканирования до ссылки” для некоторых студентов LLM это соотношение шокирующе велико.

Какова ценность трафика, отправляемого LLM?

Первый шаг – понять, действительно ли ценны посетители, приезжающие из LLM. Взгляд исключительно на количество сессий может ввести в заблуждение. Платформы искусственного интеллекта в настоящее время отправляют значительно меньше трафика, чем традиционные поисковые системы, но посетители, которые они отправляют, могут быть высококвалифицированными.

<п>По сути, ключевыми показателями, которые следует учитывать здесь, являются показатели вовлеченности. Взаимодействуют ли пользователи из LLM с вашим сайтом положительно, что указывает на то, что они могут стать конверсионными пользователями? Даже если они не совершают покупки при первом посещении, они могут вернуться через другой канал позже. Используя свои знания о путешествиях пользователей по сайту, сравните поведение посетителей, привлеченных LLM, с посетителями, конвертировавшими их из других каналов.

В конечном счете, наиболее убедительным аргументом в пользу разрешения сканера с искусственным интеллектом является получение дохода, который перевешивает затраты на сканирование сайта. Если посетители, прибывающие из определенного LLM, продолжают покупать продукты или заполнять формы для потенциальных клиентов, это показывает, что они оказывают положительное влияние на бизнес.

Цитаты и упоминания

<п>Трафик — это только одна из форм стоимости. Платформа, которая постоянно цитирует ваш контент, может повысить узнаваемость вашего бренда, даже если пользователи не переходят по ссылке. Как оптимизаторы по поисковой оптимизации, мы знаем, что трафик — это не главное и конечное достижение маркетинга. Тот факт, что посетитель не перешел на ваш веб-сайт, не означает, что он не прыгнет в машину, чтобы посетить ваш обычный магазин, который он только что обнаружил через бизнес-профиль Google.

Рассмотрите LLM аналогичным образом.

Отслеживайте, как часто ваш сайт появляется в ответах, созданных искусственным интеллектом, на темы, имеющие отношение к вашему бизнесу. Чем чаще появляется ваш контент, тем больше вероятность того, что ваш бренд станет ассоциироваться с этими темами у пользователей. умы. <ч3>Настроение <п>Быть упомянутым недостаточно; понимание того, как представлен ваш бренд, не менее важно.

<стр>Просмотрите ответы, сгенерированные ИИ, чтобы определить, правильно ли и позитивно описывается ваша компания. Если платформа часто ссылается на ваш контент, но искажает ваши продукты или опыт, это должно стать частью процесса принятия решений. LLM, который постоянно ошибается, не просто тратит ваш бизнес на плату за сервер; это может стоить доброй репутации вашего бренда.

Запрос/Охват темы

<стр>Оцените, по каким темам, продуктам или услугам ваш бренд появляется на платформах искусственного интеллекта. <п>Если конкуренты доминируют в важных коммерческих темах, а ваш бренд появляется редко, разрешение соответствующих сканеров может стать стратегически важным. И наоборот, если ключевые темы уже хорошо видны, вам может быть удобнее ограничить определенные типы сканеров.

Учитывайте будущую стоимость

Один из самых сложных аспектов этого анализа заключается в том, что сегодняшняя стоимость может не отражать завтрашнюю ценность.

Сканер, который сегодня генерирует мало трафика, может принадлежать платформе, которая в будущем станет основным каналом обнаружения. Точно так же сканер, который сегодня кажется дорогим, в конечном итоге может оправдать свои затраты за счет улучшения видимости и реферального трафика.

По этой причине не оценивайте ИИ-сканеры исключительно по краткосрочным показателям. Подумайте об их потенциальной стратегической ценности на ближайшие несколько лет.

Построение матрицы решений

<п>Заключительная часть анализа представляет собой матрицу решений. Это простой способ превратить ИИ-сканеры в ботов, чтобы «сохранять», ” “ограничить” или “блокировать”

Используя уже собранную информацию, задайте каждому боту следующую серию вопросов:

Приносит ли этот бот моему сайту доход от конвертации или полезную видимость?

<п>Способствует ли этот сканер трафику, привлечению потенциальных клиентов, доходам или узнаваемости бренда? Если да, то это веская причина сохранить его. Если кажется, что он не обеспечивает никакого трафика или видимости в LLM, то, скорее всего, это “нет” или “может быть.”

Это доступ к конфиденциальной информации или к информации, которую мы хотим сохранить в тайне?

Здесь вы анализируете, безопасно ли позволять боту перемещаться или вы заметили, что он очищает контент, который является частью IP-адреса вашей компании. В этом случае вы, вероятно, захотите заблокировать или ограничить его.

Насколько надежен этот бот?

Это бот от известной компании, занимающейся искусственным интеллектом? Есть ли общедоступная документация о том, как работают его сканеры, какие команды они соблюдают и какова их политика хранения данных? Если да, то это более веский признак того, что этому боту можно разрешить сканировать ваш сайт. Если его нет, то, скорее всего, его заблокируют.

Стоит ли этот бот нам значительных денег или мешает доступу пользователей к нашему сайту?

<п>Это вопрос о том, сколько стоит позволить боту сканировать ваш сайт. Если он посещает сайт с высокой частотой, это вполне может стоить вам больших затрат на сервер. Это также может привести к превышению мощности сервера, что может помешать другим полезным ботам или реальным пользователям вашего сайта получить доступ к сайту.

Можем ли мы позволить себе конкурентное преимущество, не позволяя этому боту получить доступ к нашему сайту?

Это связано с риском того, что ваш сайт будет недоступен для ботов.

Если блокировка сканера, скорее всего, приведет к удалению вашего бренда из ответов крупной платформы искусственного интеллекта, тогда стратегические затраты могут перевесить экономию на инфраструктуре. Если мало доказательств того, что платформа ссылается на ваш контент или конкурентов, то обратная сторона может быть ограничена.

Окончательное решение

<п>После того, как вы собрали все свои данные и взвесили плюсы и минусы каждого бота, вы готовы принять решение. Ключом к принятию такого решения является память о том, что со временем ситуация может измениться. Возможно, вам не понадобится блокировать бота сегодня, но вы можете ограничить его действие на данный момент, зная, что вы сможете полностью заблокировать его позже.

Сохранить – Не стоит много/приносит больше пользы, чем стоит

Это боты, которые приносят измеримую пользу. Это может быть связано с трафиком, цитированием, известностью бренда или будущей стратегической важностью, но, что важно, эта ценность перевешивает операционную нагрузку.

Отслеживать или ограничивать – Не имеет большой ценности, но и не требует больших затрат <п>Это боты, экономическое обоснование которых остается неясным. Вы можете ограничить скорость сканирования, ограничить доступ к определенным областям сайта или продолжить сбор данных, прежде чем принять окончательное решение.

Блок – Низкая ценность/высокий риск

Это боты, которые создают значительные затраты, получают доступ к конфиденциальному контенту или предоставляют мало доказательств текущей или будущей ценности.

См. также: WordPress Robots.txt: Что следует включить?

Вперед

Ключевой момент, который следует помнить: это не тот случай, когда «установил и забыл». Будут созданы новые боты с искусственным интеллектом. Потенциальная ценность ботов, которых вы заблокировали, может возрасти в течение следующих нескольких месяцев и лет.

В рамках вашей оценки вам необходимо проводить регулярные проверки. Это может быть вызвано тем, что человек, ответственный за расходы на сервер, спрашивает вас, действительно ли вам нужен ChatGPT для доступа к сайту. Однако в идеале вы заранее обдумываете это и можете представить заинтересованным сторонам как план защиты бренда, так и план действий на будущее. <стр>Подумайте о том, чтобы пересматривать свой черный список раз в квартал. Это ритм, который не оказывает слишком большого давления на человека, загружающего файлы журналов, а также дает вам время для внесения стратегических изменений, если это необходимо.

Основной вывод заключается в том, что редко бывает веская причина либо разрешить работу каждого ИИ-сканера, либо заблокировать их все. Вместо этого рассматривайте каждого бота как отдельный бизнес-кейс. Измерьте его стоимость, оцените видимость, которую он обеспечивает, поймите риск, который он создает, а затем примите обдуманное решение. Такой подход с гораздо большей вероятностью защитит как ваши текущие ресурсы, так и вашу возможность обнаружения в будущем.

Должен ли я блокировать роботов с искусственным интеллектом или сначала оценить их ценность ? – спросите SEO-специалиста

Должен ли я блокировать роботов с искусственным интеллектом или сначала оценить их ценность ? – спросите SEO-специалиста