<стр>Исследование Google показывает, почему спам, генерируемый искусственным интеллектом, становится все труднее ловить и почему фильтров качества на уровне контента может оказаться недостаточно.стр>
Исследователи Google опубликовали новую статью, в которой подробно описывается новый способ поймать спамеров, которые используют генеративный искусственный интеллект, чтобы наводнить платформу Google спамом и перегрузить ее фильтры качества. Хотя исследование сосредоточено на выявлении спама в видеоконтенте, описанные методы могут дать представление о методах, которые Google может использовать для борьбы со спамом в веб-контенте. Фактически, в исследовательской работе обсуждается текстовая генеративная система идентификации ИИ.
Новая система считается “высокоточной защитой” против скоординированного генеративного спама ИИ, а это означает, что что-то подобное предположительно может использоваться. Новая система называется Scalable Cluster Termination System (S-CTS), а исследовательская работа Масштабируемое обнаружение состязательных синтетических упущений и скоординированного злоупотребления средствами массовой информации: мультимодальная система защиты с поддержкой LoRA.
Можно ли использовать эту систему для текстового спама, генерируемого искусственным интеллектом?
Система успешна, потому что она ищет организационную структуру атаки, которая представляет собой массовое повторное использование определенного шаблона семантического повествования вместо оценки отдельных видео одно за другим.
В исследовательской работе также описывается использование вложений текста, основных терминов и шаблонных повествований как части классификатора контента. Если высокий процент учетных записей в инфраструктурном кластере идентифицируется как использующий одни и те же текстовые/медиа-шаблоны, сгенерированные ИИ, весь кластер закрывается.
Быстрая адаптация к новым видам ИИ-спама
В документе говорится, что когда злоумышленники применяют новые генеративные модели, Google может быстрее адаптировать свою синтетическую систему обнаружения спама, используя низкоранговую адаптацию (LoRA) и автоматическую оптимизацию подсказок (APO) вместо переобучения массивной модели искусственного интеллекта.
Они пишут:
<блоковая цитата><п>“Классификатор этапа 2 специализируется на обнаружении синтетических тенденций с использованием методов точной настройки параметров (PEFT), в частности низкоранговой адаптации (LoRA) и автоматической оптимизации подсказок (APO).
…Этот подход позволяет эффективно адаптировать большой проприетарный LLM (например, Gemini 2.0 Flash) без непомерно высоких вычислительных затрат на полную точную настройку. В частности, LoRA значительно уменьшает количество обучаемых параметров и существенно уменьшает объем памяти, обеспечивая быстрое и экономичное выполнение и распараллеленный вывод в масштабируемой инфраструктуре TPU.
…APO позволяет нам разрабатывать подсказки, которые адаптируются к новым “Slop” тенденции быстрее, чем переобучение плотной модели. Мы можем быстро переобучить адаптер LoRA, когда злоумышленники выпустят новую модель GenAI (например, Sora или Kling).”
Sentence-BERT (S-BERT) для идентификации текста, сгенерированного искусственным интеллектом
<п>Что, вероятно, будет представлять наибольший интерес, так это то, что исследователи признают использование Sentence-BERT (SBERT) как способа идентификации семантически похожих предложений.
Они цитируют Sentence-BERT для подтверждения основного предположения своей статьи: автоматизированный текст, сгенерированный искусственным интеллектом, оставляет отчетливый математический след («встраивание текста»), который можно обнаружить.
Затем они отходят от S-BERT, чтобы подчеркнуть, почему их система (S-CTS) является достижением: потому что она не ограничивается сопоставлением встраивания текста. Он масштабируется до мультимодальной двухэтапной архитектуры LLM, которая оценивает эти текстовые шаблоны вместе с данными бот-сети на уровне инфраструктуры.
Исследователи пишут:
<блоковая цитата><п>“Для текстового контента такие методы, как встраивание текста, генерируемые такими моделями, как Sentence-BERT, используются для обнаружения сценариев, написанных ИИ. Для мультимедиа традиционные методы включают перцепционное хеширование. Однако генеративный ИИ создает уникальные проблемы; наша система использует запатентованные алгоритмы, которые анализируют как текстовый, так и мультимедийный контент для выявления «генеративных артефактов»; —тонкие маркеры синтетического производства, общие для всех каналов”
Существует еще одна исследовательская статья о Sentence-BERT (PDF), и вот как они объясняют ее преимущества:
“В этой публикации мы представляем Sentence-BERT (SBERT), модификацию предварительно обученной сети BERT, которая использует сиамские и триплетные сетевые структуры для получения семантически значимых вложений предложений, которые можно сравнивать с использованием косинусного сходства. Это сокращает время поиска наиболее похожей пары с 65 часов при использовании BERT/RoBERTa до примерно 5 секунд при использовании SBERT, сохраняя при этом точность BERT.
Мы оцениваем SBERT и SRoBERTa на общих задачах STS и задачах трансферного обучения, где он превосходит другие современные методы встраивания предложений.”
<п>Для SEO упоминание S-BERT для выявления текстового спама, генерирующего ИИ, очень интересно, потому что это не то, о чем индустрия SEO действительно знает. Это расширяет наши знания о типах алгоритмов, которые используются для идентификации текстового спама, генерирующего ИИ.
А теперь самое интересное: S-BERT существует уже семь лет, и индустрия SEO еще не знала о нем как о чем-то, что можно использовать для идентификации текстового спама. Это не значит, что Google использует его уже семь лет. Учитывая, что генеративный ИИ широко доступен всего несколько лет, вполне возможно, что Sentence-BERT только недавно использовался поисковыми системами, такими как Google, для перехвата текстового спама, генерируемого ИИ.
<ч2>Проблема решаетсяч2>
Исследователи выделяют три причины, по которым генеративный ИИ-спам выходит из-под контроля и подавляет существующие методы обнаружения контента низкого качества.
<ол> <ли>Проблема низкого качества контента, создаваемого ИИ, стала «экспоненциальной проблемой». для обнаружения и ловли.
ол>
Исследователи объясняют:
“Онлайн-видеоплатформы сталкиваются с экспоненциальной проблемой обнаружения и смягчения потока “отбросов”, генерируемых искусственным интеллектом; и синтетический спам, распространяемый скоординированными злоумышленниками.
Этот контент все чаще разрабатывается с целью использования ограничений традиционной медиа-криминалистики, часто с использованием генеративного искусственного интеллекта для создания уникальных, локализованных вариаций вредных или низкокачественных материалов в большом масштабе.
<п>Традиционная модерация, ориентированная на контент, не справляется с этой скоординированной, состязательной стратегией генерации.”
Эта фраза «локализованные вариации», ” интересен тем, что относится к созданию «уникальных отпечатков пальцев для функционально идентичного контента».
В исследовательской работе используются такие фразы, как:
<ул>
<ли>“бесконечные, уникальные варианты функционально идентичного спама”
мл>
Это больше, чем просто небольшие изменения в контенте здесь и там. Они говорят о спамерах, распространяющих бесконечно уникальный контент, который «функционально идентичен»; как способ обойти традиционные стратегии контент-анализа и смягчения последствий. Именно поэтому они уменьшают масштаб, чтобы просмотреть группы учетных записей, чтобы идентифицировать настоящие отпечатки пальцев спамеров или их автоматизацию.
<стр>Исследовательская работа посвящена выявлению видеоспама, генерируемого ИИ, но возникает вопрос: можно ли использовать что-то подобное для выявления текстового спама, генерируемого ИИ? Это, безусловно, стоит учитывать.
Как отстой ИИ может победить качественные фильтры
<п>Интересный факт, которым делятся исследователи, заключается в том, что отбросы ИИ, генерируемые в огромных масштабах, могут перегрузить качественные фильтры. Исследователи также отмечают, что спамеры используют «состязательную адаптацию»; чтобы обойти качественные фильтры. Состязательная адаптация означает постоянное обновление спама для выявления шаблонов, которые позволяют ему проникнуть ниже «порога нарушения» платформы.
<ч2>Решениеч2>
Исследователи предлагают систему, которая отказывается от выявления отдельных случаев спама и фокусируется на обнаружении кластеров спама, которые указывают на общее происхождение.
Исследователи пишут:
<блоковая цитата><п>“В этом документе представлена новая масштабируемая система защиты, разработанная для онлайн-видеоплатформ (OVP) для выявления и блокирования групп скоординированных учетных записей, демонстрирующих преобладание состязательного синтетического контента.”
И они делают это, рассматривая ситуацию с двух точек зрения:
<ул>
Это компонент машинного обучения, который сканирует “повторяющиеся шаблонные повествования, распространенные в созданных ИИ ‘slop’ и “скрипты, созданные искусственным интеллектом” (имеется в виду текст/диалог). Они специально смотрят на масштаб, выявляя «нечеловеческое, высокочастотное поведение публикации, характерное для автоматизированных сценариев».
При этом используются алгоритмы Google для анализа “сигналов собственной инфраструктуры” для идентификации кластеров учетных записей, которые статистически вероятно происходят из одной и той же организации или сценария программного обеспечения автоматизации.
мл>
Подробное описание масштабируемой кластерной системы терминации (S-CTS)
<п>Вместо того, чтобы просматривать отдельное подозрительное видео, система использует двусторонний подход машинного обучения для выявления целых сетей автоматических учетных записей («бот-сетей»), которые наводняют платформу низкокачественным спамом, созданным искусственным интеллектом. Таким образом, цель меняется с выявления отдельных случаев спама на выявление нескольких отдельных учетных записей, принадлежащих одним и тем же спамерам или автоматическим программным сценариям.
Система анализирует “сигналы уровня инфраструктуры и неорганические модели поведения” группировать связанные учетные записи в “Кластеры генерации” Кластеры поколений — это группы учетных записей, которые, скорее всего, будут использовать один и тот же API или скрипт.
В документе объясняется:
“Подход использует многогранную архитектуру, включающую два основных компонента машинного обучения:
надежный скоординированный детектор бот-сетей (через связь учетных записей)
и классификатор синтетических шаблонов.
<п>Крайне важно, мы представляем продвинутый уровень улучшения искусственного интеллекта, использующий модели большого языка (LLM), специализирующиеся на низкоранговой адаптации (LoRA) и автоматической оптимизации подсказок (APO), для достижения быстрого и высокоточного семантического понимания новых тенденций синтетического спама.”
Работает ли S-CTS?
Да, данные испытаний показывают, что система оказывает “значительное воздействие” при улавливании “кластеров” спама с высоким уровнем точности (precision).
Они пишут:
“Данные испытаний демонстрируют значительное влияние системы, приводящее к успешному завершению кластеров с высокой точностью, включающих каналы генераторов синтетического спама.
Кроме того, автоматизация на основе LLM значительно повышает операционную эффективность, что приводит к значительному повышению эффективности человеческого контроля. В этой работе подробно описана критически важная конструкция системы, обеспечивающая необходимую масштабируемость и состязательную устойчивость к сложным генеративным атакам.”
<ч2>Выносч2>
Некоторые интересные факты в этой исследовательской работе:
- Качественные фильтры могут быть перегружены потоком спама.
- Sentence-BERT используется для перехвата спама, генерируемого ИИ.
- Масштабируемая кластерная система терминации — это уникальный подход к выявлению спама на уровне кластера.
- Google может быстро адаптироваться к спаму, генерируемому ИИ, с помощью низкоранговой адаптации (LoRA) и автоматической оптимизации подсказок (APO).
мл> <стр>В этом исследовании «Масштабируемое обнаружение состязательного синтетического мусора и скоординированного злоупотребления медиа: мультимодальная система защиты с поддержкой LoRA» (PDF) показано разнообразие методов, которые Google описывает для выявления спама, создаваемого искусственным интеллектом, включая текстовый и видеоспам.
