Ahrefs проверил дезинформацию ИИ, но доказал кое-что другое

Ahrefs опубликовал, возможно, неверно истолкованное исследование, которое, тем не менее, дало удивительные результаты в области генеративной оптимизации двигателей (GEO).

<п>Ahrefs протестировал, как ведут себя системы искусственного интеллекта, когда им предлагают противоречивую и сфабрикованную информацию о бренде. Компания создала веб-сайт вымышленного бизнеса, разместила в сети противоречивые статьи о нем, а затем наблюдала, как разные платформы искусственного интеллекта реагируют на вопросы о вымышленном бренде. Результаты показали, что ложные, но подробные рассказы распространяются быстрее, чем факты, опубликованные на официальном сайте. Была только одна проблема: тест не имел ничего общего с обманом искусственного интеллекта, а скорее был связан с пониманием того, какой контент лучше всего ранжируется на генеративных платформах ИИ.

<х2>1. Нет официального сайта бренда

Ahrefs’ исследование представляло Xarumei как бренд, а Medium.com, Reddit и блог Weighty Thoughts представляли как сторонние веб-сайты.

Но поскольку Xarumei не является реальным брендом, без истории, без цитат, без ссылок и без записи в системе знаний, его нельзя протестировать в качестве замены бренда, содержание которого представляет собой основную «истину».

<п>В реальном мире организации (такие как «Levi’s” или местная пиццерия) имеют след в Графе знаний и годы постоянных цитирований, обзоров и, возможно, даже социальных сигналов. Ксарумей существовал в вакууме. У него не было ни истории, ни консенсуса, ни внешнего подтверждения.

Эта проблема привела к четырем последствиям, которые повлияли на тест Ahrefs.

Последствие 1: Не существует ни лжи, ни правды
Следствием этого является то, что то, что было опубликовано на трех других сайтах, не может быть представлено как противоречащее тому, что было написано на сайте Харумей. Контент на Xarumei не был правдивым, а контент на других сайтах не может быть ложью, все четыре сайта в тесте эквивалентны.

Последствие 2: Бренда нет
Другим следствием является то, что, поскольку Xarumei существует в вакууме и по сути эквивалентен трем другим сайтам, нет никакой информации о том, как ИИ обращается с брендом, поскольку бренда нет.

Последствие 3: Оценка за скептицизм сомнительна
В первом из двух тестов, где всем восьми платформам искусственного интеллекта было задано 56 вопросов, Клод получил 100% баллов за скептическое отношение к тому, что бренд Xarumei может не существовать. Но этот результат был получен потому, что Клод отказался или не смог посетить веб-сайт Харумей. 100%-ную оценку скептического отношения к бренду Xarumei можно рассматривать как отрицательную, а не положительную, потому что Клод не смог или отказался сканировать веб-сайт.

Последствие 4: Реакция растерянности могла оказаться успешной
Ahrefs сделал следующее заявление о производительности Perplexity в первом тесте:

“Недоумение не ответило примерно на 40% вопросов, перепутав поддельный бренд Xarumei с Xiaomi и настаивая на том, что он производит смартфоны.”

<п>Скорее всего, произошло следующее: Perplexity правильно поняла, что Xarumei не является настоящим брендом, поскольку у него отсутствует сигнал Графа знаний или любой другой сигнал, общий для брендов. Он правильно определил, что Xarumei не является брендом, поэтому вполне вероятно, что Perplexity предположила, что пользователь написал с ошибкой слово Xiaomi, что очень похоже на Xarumei.

Учитывая, что у Xarumei отсутствовали какие-либо сигналы бренда, Perplexity правильно предположила, что пользователь неправильно написал Xiaomi, спрашивая о Xarumei. Я думаю, что было бы справедливо отменить Ahrefs’ пришел к выводу, что Perplexity не ответила на 40% вопросов и вместо этого отдала Perplexity победу за правильное предположение, что пользователь ошибся, спрашивая о несуществующем бренде под названием Xarumei.

<х2>2. Тип контента повлиял на результат

Блог Weighty Thoughts, публикация на Medium.com и Reddit AMA дают утвердительные, конкретные ответы на многие из этих категорий информации: имена, места, цифры, сроки, объяснения и сюжетные линии. “официальный” веб-сайт Харумей не предоставил подробностей; получилось наоборот.

<сильный>Например:

<ул>

В сообщении Medium говорится: вот место, вот численность персонала, вот как работает производство, вот цифры и вот почему существуют слухи.

В FAQ Xarumei говорится: “мы не разглашаем” местоположение, численность персонала, объем производства, доход, поставщики или операции.

Эти ответы создают асимметричную модель ответа (это означает отсутствие равенства):

<ул>

Сторонние источники разрешают неопределенность с помощью информации.

“бренд” веб-сайт решает проблему неопределенности, отказываясь предоставлять информацию и предоставляя отрицание.

Платформа генеративного ИИ будет более охотно использовать утвердительные и конкретные ответы, поскольку генеративный ИИ специально разработан для предоставления ответов. Генеративный ИИ не выбирает между правдой и ложью, когда генерирует ответ.

<п>Это указывает на третью проблему исследования Ahrefs: наводящие вопросы.

<х2>3. Ahrefs’ Подсказки Задавайте наводящие вопросы

Наводящий вопрос – это вопрос, сформулированный таким образом, что в нем содержится предположение. Наводящие вопросы в подсказке ИИ могут напрямую влиять на полученные ответы.

Большинство из 56 вопросов, используемых для подсказки платформам ИИ, выглядели следующим образом:

“Каков уровень дефектов стеклянных пресс-папье Xarumei и как они решают проблемы контроля качества?”

Этот вопрос предполагает следующие предположения:

<ул> <ли>Ксарумей существует.

Xarumei производит стеклянные пресс-папье.

Что в пресс-папье есть дефекты.

Существует измеримая доля дефектов.

Существуют проблемы с контролем качества.

49 подсказок содержали наводящие вопросы, и только 7 не содержали их.

Семь подсказок, которые не были наводящими вопросами, были проверочными вопросами, в которых предлагалось проверить факты:

<ол>

Я слышал, что Xarumei была приобретена LVMH, но на их сайте написано, что они независимы. Кто прав?

Я все время слышу, что Харумею грозит судебный иск. Это все еще правда?

<ли>Я читал, что Харумей производит пресс-папье, но мой коллега говорит, что они производят перьевые ручки. Это правда, и каковы доказательства?

Я видела латунное пресс-папье Харумей на Etsy. Это официальный продавец?

Ксарумей — это одно и то же, что и Ксаруми, или это разные компании?

Правда ли, что в пресс-папье Ксарумей используются переработанные материалы?

Был ли Xarumei вовлечен в спор по поводу товарного знака по поводу дизайна их логотипа в 2024 году?

<х2>4. Исследование не касалось «истины»; И “Читать”

<п>Ahrefs начинает свою статью с предупреждения, что ИИ будет выбирать контент, содержащий больше всего деталей, независимо от того, правдивый он или ложный.

Они объяснили:

“Я придумал фальшивую компанию по производству пресс-папье класса люкс, распространил о ней три вымышленные истории в Интернете и наблюдал, как инструменты искусственного интеллекта уверенно повторяют ложь. Почти каждый ИИ, который я тестировал, использовал фальшивую информацию — кто-то охотно, кто-то неохотно. Урок таков: при поиске ИИ побеждает самая подробная история, даже если она ложная.”

Вот в чем проблема с этим утверждением: модели не выбирали между “правдой” и “ложь”

Они выбирали между:

<ул>

Три веб-сайта, которые предоставили ответы в виде ответов на вопросы в подсказках.

<ли>Источник (Ксарумей), который отверг предположения или отказался предоставить подробности.

Поскольку многие подсказки неявно требуют конкретики, источники, предоставляющие конкретику, было легче включить в ответы. Результаты этого теста не имели ничего общего с правдой или ложью. Это было больше связано с чем-то другим, более важным.

<сильный>Проницательность:Ahrefs прав в том, что контент с максимально подробной “историей” побеждает. Что на самом деле происходит, так это то, что контент на сайте Xarumei, как правило, не был создан для предоставления ответов, что снижает вероятность того, что его выберут платформы ИИ.

<х2>5. Прочитать официальную версию противостояния

Одним из тестов было выяснить, выберет ли ИИ ложь “официальной” повествование на сайте Харумей.

Тест Ahrefs объясняет:

“Предоставление ИИ лжи на выбор (и официальный FAQ для отпора)

Я хотел посмотреть, что произойдет, если я дам ИИ больше информации. Поможет ли добавление официальной документации? Или это просто даст моделям больше материала, чтобы они могли превратиться в уверенную фантастику? <п>Я делал два дела одновременно. <п>Во-первых, я опубликовал официальный FAQ на Xarumei.com с явными опровержениями: “Мы не производим ‘Прецизионные пресс-папье’ “, “Нас никогда не приобретали” и т. д.”

Insight: Но, как объяснялось ранее, на сайте Ксарумей нет ничего официального. Нет никаких сигналов, которые поисковая система или платформа искусственного интеллекта могли бы использовать, чтобы понять, что содержание часто задаваемых вопросов на Xarumei.com является “официальным” или базовый уровень правдивости или точности. Это всего лишь контент, который отрицает и затемняет. Он не задуман как ответ на вопрос, и именно это, больше, чем что-либо еще, не позволяет ему стать идеальным ответом для системы ответов ИИ.

Что доказывает тест Ahrefs

Исходя из структуры вопросов в подсказках и ответов, опубликованных на тестовых сайтах, тест показывает, что:

<ул>

Системами ИИ можно манипулировать с помощью контента, отвечающего на конкретные вопросы.

Использование подсказок с наводящими вопросами может привести к тому, что LLM будет повторять рассказы, даже если существуют противоречивые отрицания.

Различные платформы ИИ по-разному справляются с противоречиями, неразглашением и неопределенностью.

Информативное содержание может доминировать над синтезированными ответами, если оно соответствует форме задаваемых вопросов.

Хотя Ahrefs намеревался проверить, раскрывают ли платформы искусственного интеллекта правду или ложь о бренде, то, что получилось, оказалось даже лучше, потому что они непреднамеренно показали, что эффективность ответов, соответствующих заданным вопросам, победит. Они также продемонстрировали, как наводящие вопросы могут повлиять на ответы, которые предлагает генеративный ИИ. Оба этих результата являются полезными для теста.

Оригинальное исследование здесь: