Издатели США требуют от Common Crawl прекратить парсинг их контента

Цифровой контент Далее Common Crawl был прекращен.
Они хотят, чтобы Common Crawl прекратил сбор контента издателей.
Они также хотят удалить контент из своих наборов данных.
Digital Content Next отправил Common Crawl письмо о прекращении противодействия с требованием прекратить очистку контента издателей и удалить защищенные материалы из своих наборов данных.

<стр>Digital Content Next, торговая организация, представляющая американских цифровых издателей, направила письмо о прекращении противодействия в Common Crawl Foundation.

Письмо требует от Common Crawl прекратить сбор контента издателей и удалить материалы, уже находящиеся в его наборах данных.

Генеральный директор DCN Джейсон Кинт объявил об официальном уведомлении в своем блоге, а Press Gazette сообщила дополнительные подробности из письма на этой неделе.

Common Crawl сканирует несколько миллиардов новых страниц каждый месяц с 2007 года для создания бесплатного общедоступного архива. Этот архив использовался для обучения многих моделей ИИ, используемых сегодня. В документе OpenAI GPT-3 указано, что фильтрованный Common Crawl составляет 60% тренировочного набора модели.

<п>Спор имеет значение для любого сайта, который блокирует сканеры с искусственным интеллектом. Блокирование сканера Common Crawl, CCBot, останавливает будущий сбор, но не затрагивает контент, уже находящийся в архиве, который все еще может скачать.

Что требует DCN

В письме Common Crawl содержится призыв прекратить «очистку, сохранение или распространение защищенного авторским правом, платного доступа, только для подписчиков или иным образом защищенного контента от компаний-членов DCN в своих наборах данных», и удалить контент участника, который он уже собрал.

<п>DCN утверждает, что Common Crawl “грубо нарушил” контент, защищенный авторским правом, путем создания наборов данных и обмена ими с компаниями, занимающимися искусственным интеллектом.

В письме утверждается, что «закон об авторском праве не является режимом отказа». Другими словами, позиция DCN заключается в том, что издателям не следует просить об исключении. Для их включения Common Crawl потребуется разрешение.

Кинт написал, что уведомление:

“бросает вызов растущему мнению о том, что контент, созданный за счет значительных инвестиций, можно собирать, хранить, перепрофилировать и монетизировать просто потому, что он технически доступен.”

Почему DCN сомневается в процессе удаления

<п>В письме DCN ставится вопрос, следует ли Common Crawl инструкциям по отказу и удаляет ли контент по запросу. Как сообщает Press Gazette, юристы DCN проверяют, были ли заявления Common Crawl издателям неточными или вводящими в заблуждение.

Common Crawl публикует публичный реестр веб-сайтов, которые попросили не парсить. Он включает статьи для Associated Press, BBC и большого материала News/Media Alliance, охватывающего сотни доменов. Как сообщает Press Gazette, в список вошли и другие крупные издатели.

<п>Это не первый раз, когда процесс удаления ставится под сомнение. В ноябре The Atlantic сообщила, что контент The New York Times и датских издателей все еще доступен после того, как Common Crawl согласился его удалить.

Общий ответ сканирования

<стр>Исполнительный директор Common Crawl Рич Скрента отказался комментировать письмо, когда с ним связалась Press Gazette.

Он и раньше отвергал подобные заявления. В ноябрьском сообщении в блоге в ответ на The Atlantic Скрента отрицал, что организация лгала издателям или собирала платный контент.

Он сказал, что формат файла архива нельзя редактировать после публикации, не нарушая его целостности. Вместо этого Common Crawl заявляет, что удаляет или фильтрует затронутые URL-адреса при последующих сканированиях и делает их недоступными через свои общедоступные инструменты и индексы:

“Когда издатель просит нас удалить ранее просканированный материал, мы оперативно реагируем и инициируем процесс удаления, который отражает техническую структуру нашего набора данных.”

<стр>Он добавил:

“Никто в Common Crawl никогда не утверждал, что эта работа была мгновенной или завершенной; Скорее, мы открыто заявили о его сложности и постоянном характере.”

<п>В своем сообщении на форуме на этой неделе Скрента заявил, что Common Crawl способствует работе над открытыми стандартами того, как веб-сайты выражают предпочтения в отношении парсинга ИИ.

Почему это важно

Письмо DCN нацелено на сохраненный архив, а не только на будущее сканирование, и утверждает, что издатели не должны в первую очередь бремя отказа от использования.

Большинство издателей в выборке BuzzStream уже приняли решение о блокировке: 79% из 100 проверенных новостных сайтов заблокировали хотя бы одного обучающего бота. Данные Cloudflare’s Year in Review, которые мы рассмотрели в январе, показали, что CCBot входит в число ботов с наиболее полными директивами запрета на ведущих доменах. Вопрос, который поднимает DCN, заключается в том, чего достигают эти блоки, если годы контента все равно остаются доступными для обучения.

<ч2>Взгляд в будущее

Будет ли DCN обостряться, зависит от того, как отреагирует Common Crawl, и Common Crawl не сказал, как это произойдет. Обе стороны хотят разных правил относительно того, кто действует первым.

Скрента поддерживает работу над стандартами, позволяющими сайтам заявлять о своих предпочтениях в отношении парсинга, но эта модель продолжает отказываться от нее. Британская CMA пошла по аналогичному пути, когда потребовала от Google разрешить издателям отказаться от функций поиска с использованием ИИ.

DCN утверждает, что скраперам сначала нужно получить разрешение. Если больше торговых групп поддержат этот аргумент, давление переместится с отдельных файлов robots.txt на сами архивы.

Издатели США требуют от Common Crawl прекратить парсинг их контента

Что требует DCN

Почему DCN сомневается в процессе удаления

Общий ответ сканирования

Почему это важно

admin

Related Posts