ALDRIFT от Google Research: ответы ИИ, которые не просто кажутся правдоподобными

<стр>Система Google ALDRIFT «открывает захватывающие возможности» для выхода за рамки ответов, которые просто кажутся правдоподобными.

Google Research опубликовала статью, в которой изучается, как заставить генеративные системы искусственного интеллекта давать ответы, которые кажутся более чем правдоподобными. Исследователи говорят, что их структура ALDRIFT «открывает захватывающие возможности» для выхода за рамки ответов, которые просто имеют высокую вероятность.

Документ под названием “Sample-Efficient Optimization over Generative Priors Through Coarse Learning,” исследует проблему, в которой сгенерированные ответы должны оставаться вероятными в рамках модели, но при этом двигаться к отдельной цели. Исследование указывает на новые пути решения ловушки правдоподобия ИИ.

<ч2>Google ALDRIFT <п>Доказательства в статье сосредоточены на системе под названием ALDRIFT (алгоритмическая итерационная подгонка целей). Этот метод неоднократно совершенствует генеративную модель для получения менее затратных ответов и использует этап коррекции для уменьшения накопленной ошибки во время процесса.

В статье также представлена «грубая обучаемость». Этот термин означает, что изученная модель не обязательно должна идеально соответствовать идеальной цели. Ему необходимо обеспечить достаточный охват важных частей пространства ответов, чтобы полезные возможности не были потеряны слишком рано. При этом предположении авторы доказывают, что ALDRIFT может аппроксимировать целевое распределение полиномиальным числом выборок. src=”https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text”>

ALDRIFT работает по схеме, состоящей из двух частей

ALDRIFT работает по схеме, состоящей из двух частей:

<ол>

Генеративная модель показывает, какие ответы остаются вероятными в рамках модели.

Внешний процесс подсчета баллов определяет, соответствует ли ответ кандидата поставленной цели.

Авторы описывают эту оценку как «затраты». Слово “стоимость” относится к измеренному штрафу, назначенному за ответ кандидата. Более низкая стоимость означает, что кандидат лучше справился с проверяемым требованием. ALDRIFT не просто ищет недорогой ответ. Он ищет ответы, которые имеют хорошие оценки, но при этом остаются вероятными в рамках генеративной модели.

Некоторые ответы ИИ должны работать как единое целое

<п>Исследователи сосредоточены на ответах ИИ на проблемы, где ответ должен функционировать в реальном мире, например на примерах планирования маршрутов и конференций.

<ул>

Планирование маршрута: В документе объясняется, что LLM может оценивать, являются ли отдельные сегменты маршрута живописными, но может с трудом гарантировать, что эти сегменты соединяются в действительный путь.

Планирование конференции: LLM может группировать сеансы по темам, в то время как может потребоваться классический алгоритм, чтобы запланировать эти сеансы в расписание без конфликтов.

Эти примеры показывают, почему в статье правдоподобные ответы рассматриваются только как часть проблемы. Более сложная задача — дать ответы, которые останутся последовательными, когда отдельные части должны работать вместе как одно законченное решение.

Грубое предположение об обучаемости

<п>В статье это рассматривается как проблема направления генеративной модели к ответам, которые объединяют все ее части. Авторы связывают проблему с выравниванием времени вывода, когда модель корректируется во время использования в зависимости от того, работает ли конкретный ответ как полное решение. Эта связь придает исследованию практическую значимость, хотя вклад статьи остается теоретическим и зависит от предположения о грубой обучаемости.

<п>Фраза «грубое предположение об обучаемости» означает, что теория статьи зависит от предположения, что модель может сохранить достаточно полезных возможностей, пока она стремится к лучшим ответам.

Это не означает, что модель должна идеально выучить цель. Это означает, что модель должна сохранять достаточный охват пространства ответов, чтобы процесс не застревал слишком рано и не терял возможные лучшие ответы.

Существующие методы оптимизации оставляют пробелы, ограниченные выборкой

В статье выявлено несколько пробелов в понимании существующих методов оптимизации:

<ул>

Ограничение существующих методов: Классические методы оптимизации на основе моделей полагаются на “аргументы асимптотической сходимости” Это означает, что теоретически они становятся понятными после очень большого количества выборок, но не обязательно в практических условиях с ограниченными выборками.

<сильный>Неудача с выразительными моделями:В статье говорится, что эти классические предположения «рушатся»; при использовании выразительных генеративных моделей, таких как нейронные сети.

Пробел в понимании: Авторы говорят, что “поведение на конечной выборке” оптимизация в этой настройке “теоретически не описана” Это означает, что теория не полностью объясняет, как ведут себя эти методы, когда доступны только ограниченные образцы.

Решение статьи состоит в том, чтобы ввести “грубую обучаемость” чтобы объяснить, как генеративная модель может быть направлена на получение лучших ответов, сохраняя при этом достаточно полезных возможностей.

Доказательства магистратуры ограничены

<п>Основное доказательство статьи относится к аналитическим генеративным моделям, которые легче анализировать математически, чем современные LLM. Доказательства LLM более узкие: авторы используют GPT-2 в простых задачах по планированию и графам, демонстрируя поведение, которое поддерживает эту идею, но не доказывая, что те же предположения справедливы для современных LLM.

Исследования указывают на основу для будущих исследований

В статье предлагается теоретическая основа для изучения того, как генеративные модели могут сочетаться с процессами внешней проверки.

<п>Исследование показывает, что исследователи Google изучают основу для поиска “правдоподобного ответа” проблема, и авторы пишут, что «структура открывает захватывающие возможности для будущих исследований». Они приходят к выводу, что эти исследования указывают «на принципиальную основу для адаптивных генеративных моделей». <ч3>Вынос <ул>

<сильный>The “Покрытие” Требование:
Грубая обучаемость означает, что модели не обязательно идеально изучать цель. Необходимо избегать потери полезных областей пространства ответов, где могут существовать лучшие решения.

Шаг коррекции имеет значение:
ALDRIFT использует шаг коррекции, чтобы приблизить поиск к намеченной цели, поскольку модель подталкивается к лучшим ответам.

Двухэтапный подход:
В рамках этой системы используется разделение труда. Генеративная модель обрабатывает качественные или семантические предпочтения, а отдельный процесс проверяет, работает ли ответ как полное решение.

<сильный>Ограниченное количество доказательств LLM:
Тесты с GPT-2 показали поведение, которое подтверждает эту идею в простых примерах планирования и графиков, но не доказало, что те же предположения справедливы для современных LLM.

Большая цель – использование в реальных условиях:
Исследование важно для оптимизаторов и бизнеса, поскольку от ответов ИИ все чаще ожидают большего, чем просто обобщение информации. Им необходимо поддерживать решения, планы и действия, которые сохраняются за пределами интерфейса чата. Хотя фреймворк, скорее всего, не используется в производстве, он показывает, что Google добился прогресса в предоставлении более чем правдоподобных ответов.