Новые интернет-правила будут блокировать обучающих ботов ИИ

Новые правила дадут издателям возможность блокировать всех ботов для обучения ИИ, используя доступные в настоящее время стандарты

Разрабатываются новые стандарты для расширения протокола исключения роботов и тегов мета-роботов, позволяющих блокировать всем роботам-ИИ-сканерам использование общедоступного веб-контента в учебных целях. Предложение, составленное Кришной Мадхаваном, главным менеджером по продуктам Microsoft AI, и Фабрисом Канелем, главным менеджером по продуктам в Microsoft Bing, позволит легко заблокировать все основные сканеры AI Training с помощью одного простого правила, которое можно применить к каждому отдельному сканеру.

Практически все законные сканеры подчиняются тегам Robots.txt и Meta Robots, что делает это предложение мечтой для издателей, которые не хотят, чтобы их контент использовался в целях обучения ИИ.

Инженерная группа Интернета (IETF)

<п>Инженерная группа Интернета (IETF) — это международная группа по разработке стандартов Интернета, основанная в 1986 году, которая координирует разработку и кодификацию стандартов, с которыми каждый может добровольно согласиться. Например, протокол исключения роботов был независимо создан в 1994 году, а в 2019 году Google предложил IETF принять его в качестве официального стандарта с согласованными определениями. В 2022 году IETF опубликовал официальный протокол исключения роботов, который определяет, что это такое, и расширяет исходный протокол.

Три способа заблокировать обучающих ботов ИИ

В проекте предложения по блокировке обучающих ботов ИИ предлагаются три способа блокировки ботов:

<ол>

Robots.txt Протоколы

HTML-элементы мета-роботов

Заголовок ответа уровня приложения

<х2>1. Robots.Txt для блокировки роботов ИИ

<п>Проект предложения направлен на создание дополнительных правил, которые распространят Протокол исключения роботов (Robots.txt) на роботов для обучения ИИ. Это наведет некоторый порядок и даст издателям возможность выбирать, каким роботам разрешено сканировать их сайты.

Соблюдение протокола Robots.txt является добровольным, но все законные сканеры, как правило, подчиняются ему.

В черновике объясняется назначение новых правил Robots.txt:

“В то время как протокол исключения роботов позволяет владельцам сервисов контролировать, как автоматические клиенты, известные как сканеры, могут получить доступ к URI в своих сервисах, если вообще это возможно, как определено [ RFC8288], протокол не обеспечивает контроль над тем, как данные, возвращаемые их службой, могут использоваться при обучении базовых моделей генеративного ИИ.

Разработчикам приложений предлагается учитывать эти теги. Однако теги не являются формой авторизации доступа.”

Важным качеством новых правил robots.txt и HTML-элементов мета-роботов является то, что законные сканеры, обучающие ИИ, склонны добровольно соглашаться следовать этим протоколам, что делают все законные боты. Это упростит блокировку ботов для издателей.

Ниже приведены предлагаемые правила для файла Robots.txt:

<блоковая цитата> <ул>

DisallowAITraining – указывает синтаксическому анализатору не использовать данные для языковой модели обучения ИИ.

AllowAITraining — указывает синтаксическому анализатору, что данные могут быть использованы для языковой модели обучения ИИ.

<х2>2. Элемент HTML (метатег роботов)

Ниже приведены предлагаемые директивы мета-роботов:

<блоковая цитата> <ул>

<х2>3. Заголовок ответа уровня приложения

Заголовки ответов прикладного уровня отправляются сервером в ответ на запрос браузера веб-страницы. В предложении предлагается добавить новые правила в заголовки ответов прикладного уровня для роботов:

“DisallowAITraining – указывает синтаксическому анализатору не использовать данные для языковой модели обучения ИИ.

AllowAITraining – сообщает синтаксическому анализатору, что данные могут быть использованы для языковой модели обучения ИИ.”

Обеспечивает больший контроль

Компаниям, занимающимся искусственным интеллектом, безуспешно предъявили иск в суде за использование общедоступных данных. Компании, занимающиеся искусственным интеллектом, утверждают, что сканирование общедоступных веб-сайтов является справедливым, как это делали поисковые системы на протяжении десятилетий.

Эти новые протоколы дают веб-издателям контроль над сканерами, целью которых является использование обучающих данных, приводя эти сканеры в соответствие с поисковыми сканерами.