Титаны Google и MIRAS: значительный прогресс в области долгоконтекстного искусственного интеллекта

Новая архитектура Google Titans и платформа MIRAS позволяют ИИ обрабатывать огромные объемы данных и работать быстрее.

<п>Google Research представила две новые исследовательские работы, Titans и MIRAS, направленные на устранение растущего ограничения в современных системах искусственного интеллекта: обработка очень длинных фрагментов информации без замедления или потери важного контекста. Вместе Titans и MIRAS стремятся предоставить моделям структурированный способ сохранять то, что важно, с течением времени, позволяя им отслеживать расширенные документы, разговоры или потоки данных с большей непрерывностью.

Архитектура Титанов

Семейство моделей, использующее модуль долговременной памяти, который активно обучается при обработке данных с использованием неожиданной метрики.

Метрика неожиданности — это внутренний флаг ошибки, математический способ сигнализации: «Это неожиданно!» Этот сигнал измеряет разницу между тем, что модель помнит в данный момент, и тем, что ей говорят новые входящие данные. Он сигнализирует, когда информация является неожиданной или достаточно важной, чтобы ее можно было отдать в приоритет для долгосрочного хранения.

Чтобы сделать это эффективным, архитектура использует так называемый импульс, устойчивый фокус, чтобы определить, какую часть окружающих длинных последовательностей данных она действительно записывает. Это гарантирует, что модель продолжит отдавать приоритет соответствующим деталям, которые следуют за этим начальным флагом, даже если эти последующие детали не являются неожиданными индивидуально.

Наконец, архитектура Титанов использует адаптирующийся механизм забывания, математический способ постепенного удаления старой или менее полезной информации. Это гарантирует, что по мере того, как модель обрабатывает длинные последовательности данных, она может отказаться от устаревших деталей, чтобы освободить место для новой, более актуальной информации.

Объединив эти три элемента: метрику неожиданности (что следует заметить), импульс (сколько записать) и снижение веса (что забыть), архитектура Titans создает систему памяти, которая остается четкой и актуальной независимо от того, сколько данных она обрабатывает.

Среда MIRAS

<п>В то время как Титаны — это особое семейство моделей, MIRAS — это основа для разработки моделей последовательностей. Он переосмысливает эти архитектуры как ассоциативную память, модули, которые учатся связывать определенные точки данных друг с другом, используя внутреннюю цель, которая сообщает модулю памяти «как?» изучить взаимосвязь между различными фрагментами данных.

Чтобы построить модель в рамках этой структуры, дизайнеры делают четыре основных варианта:

<ол>

Структура памяти: Физическая архитектура самой памяти, которая может варьироваться от простых векторов до глубоких слоев MLP, используемых в Титанах.

Смещение внимания: Конкретная внутренняя цель, которая определяет, как память расставляет приоритеты и связывает поступающую информацию.

Стабильность и сохранение памяти: механизм, который балансирует изучение новой информации с сохранением прошлого состояния.

Алгоритм памяти: метод обучения, используемый для обновления памяти, например методы градиентного спуска, которые позволяют модели обучаться во время тестирования.

Проблема: ИИ может обрабатывать, но с трудом запоминает

Современные модели ИИ эффективно анализируют информацию, которая находится непосредственно перед ними. Проблема начинается, когда контекст становится очень большим. Поскольку документы, наборы данных или разговоры растягиваются, модели сталкиваются с необходимостью выбора между сохранением деталей и управляемостью вычислительных затрат.

Модели современного языка обычно обрабатывают длинный контекст одним из двух способов:

<ол>

<сильный>Окно внимания
При необходимости они повторно обращаются к предыдущему тексту, неоднократно просматривая предыдущие токены, чтобы решить, что важно для текущего шага.

<сильное>Сжатие состояния
Они сжимают то, что было раньше, в меньшую внутреннюю сводку, чтобы продолжать двигаться вперед, жертвуя деталями ради эффективности.

Оба подхода работают, но каждый из них начинает давать сбои по мере увеличения продолжительности входных данных. При наличии окна внимания многократное обращение к более раннему материалу становится все более требовательным к вычислительным ресурсам, в то время как при сжатии состояния сжатие того, что было раньше, рискует потерять детали, которые позже окажутся важными.

<п>Ограничение не в масштабе или скорости, а в памяти. Современные системы не рассматривают память как нечто, чем можно намеренно управлять во время использования. Вместо этого они полагаются на фиксированные архитектурные шаблоны, либо сканируя назад, либо сжимая вперед, без структурированного способа решить, что следует сохранять на длинных промежутках времени.

Titans и MIRAS подходят к этой проблеме, рассматривая память как нечто, чем модели могут активно управлять, а не пассивно наследовать от своей архитектуры.

Почему исследование представлено в двух частях

Для устранения этого ограничения требуется больше, чем одно техническое изменение. Один из шагов — показать, что модели на практике могут по-разному управлять памятью. Другой вариант — разработать способ сознательного проектирования таких систем, а не рассматривать каждую новую архитектуру как одноразовое решение.

Эти потребности отражают две статьи:

<ул>

Один представляет конкретный метод придания моделям формы долговременной памяти.

Другой обеспечивает основу для понимания и построения моделей на основе этой идеи.

Титаны: добавление формы долговременной памяти

Титаны фокусируются на практической стороне проблемы. Он представляет архитектуру, которая позволяет модели накапливать информацию во время ее работы. Вместо того, чтобы повторно обрабатывать ранее введенные данные или сжимать все в небольшое представление, модель может переносить выбранную информацию с течением времени.

<п>В отличие от традиционных систем, использующих простую сводку фиксированного размера, этот модуль представляет собой глубокую нейронную сеть, которая может собирать гораздо более сложную и подробную информацию.

Цель состоит в том, чтобы сделать возможным работу с очень длинными входными данными без многократного сканирования прошлого или потери ключевых деталей. Титаны не представлены в качестве замены существующих моделей. Это дополнительный уровень, который можно комбинировать с ними, расширяя возможности обработки контекста, а не отказываясь от того, что уже работает.

MIRAS: платформа для разработки моделей, управляемых памятью

Там, где Титаны представляют конкретный механизм, MIRAS делает шаг назад и смотрит на более широкий вопрос дизайна. Он рассматривает модели последовательностей как системы, которые сохраняют и обновляют ассоциации с течением времени, и предлагает структурированный способ думать о том, как должна функционировать эта память.

<п>Вместо того, чтобы рассматривать архитектуры как принципиально разные категории, MIRAS организует их вокруг небольшого набора проектных решений, связанных с тем, как информация хранится, сопоставляется, обновляется и сохраняется.

MIRAS дает возможность интерпретировать такие системы, как Титаны, и разрабатывать новые, не начиная с нуля.

Проверка того, улучшает ли этот подход обработку длинного контекста

Чтобы определить, дает ли этот основанный на памяти подход практическое преимущество, исследователи сравнили его с существующими разработками для задач, в которых диапазоны контекстов чрезвычайно велики.

В долгосрочных оценках Titans масштабировались за пределы 2 миллионов токенов, сохраняя при этом более высокую точность поиска, чем протестированные базовые модели. В тесте BABILong, который требует рассуждений на основе фактов, скрытых в огромных документах, Титаны превзошли гораздо более крупные модели, включая GPT-4, несмотря на значительно меньшее количество параметров.

Документ MIRAS также демонстрирует, что этот успех не ограничивается одной моделью. Протестировав несколько различных систем, созданных с использованием этой структуры, исследователи показали, что эти принципы проектирования неизменно дают высокопроизводительные результаты при выполнении различных задач.

<п>В совокупности эти оценки показывают, что структурированная активная память позволяет моделям поддерживать высокую точность в огромных наборах данных без обычного компромисса в вычислительных затратах.

Исследователи Титанов объяснили свои результаты:

“Наша экспериментальная оценка различных задач подтверждает, что Титаны более эффективны, чем Трансформеры и последние современные линейно-рекуррентные модели, особенно для
длинный контекст. То есть Titans могут масштабироваться до размера контекстного окна, превышающего 2M, с большей точностью, чем базовые значения.”

Исследователи MIRAS объясняют, почему MIRAS представляет собой прогресс:

<блоковая цитата><п>“В этой статье мы представляем Miras, общую структуру, которая объясняет связь онлайн-оптимизации и запоминания времени тестирования. Фреймворк Миры может объяснить роль нескольких стандартных архитектурных вариантов, описанных в литературе (например, шлюз забывания), и помогает разработать следующее поколение архитектур, способных лучше управлять памятью.

Опираясь на нашу концепцию, мы представляем три новые модели последовательностей, каждая из которых имеет свои преимущества (недостатки). Наши экспериментальные оценки показывают, что все эти варианты более эффективны, чем трансформаторы и линейные RNN, в различных последующих задачах. В этой работе мы представляем разнообразный набор вариантов с использованием Miras.

В будущем изучение этих альтернативных архитектур для различных последующих задач станет интересным направлением.”

Исследователи’ Выводы <п>В документе Titans (PDF) делается вывод, что сочетание обработки ближнего действия с выделенной долговременной памятью может улучшить то, как модели обрабатывают расширенные входные данные, не полагаясь исключительно на большие окна внимания или более агрессивное сжатие. Он представляет это как дополнительную возможность, которую можно интегрировать с существующими архитектурами, а не заменять их.

В статье MIRAS модели последовательностей описываются как системы, управляемые памятью, которые можно проектировать и сравнивать более систематически. Его структура предназначена для руководства по построению таких моделей, делая поведение памяти явным параметром проектирования.

<стр>В обеих статьях память рассматривается как нечто, чем модели могут управлять намеренно: Титаны добавляют механизм, который может хранить информацию во время использования, а MIRAS описывает структуру для проектирования и сравнения моделей, управляемых памятью. <стр>В блоге Google объясняется, что делает Титаны и МИРАС важными:

“Появление Titans и системы MIRAS знаменует собой значительный прогресс в моделировании последовательностей. Используя глубокие нейронные сети в качестве модулей памяти, которые учатся запоминать по мере поступления данных, эти подходы преодолевают ограничения рекуррентных состояний фиксированного размера.

Кроме того, MIRAS обеспечивает мощную теоретическую унификацию, раскрывая связь между онлайн-оптимизацией, ассоциативной памятью и архитектурным проектированием. Выйдя за рамки стандартной евклидовой парадигмы, это исследование открывает дверь новому поколению моделей последовательностей, которые сочетают в себе эффективность RNN с выразительной силой, необходимой для эпохи искусственного интеллекта с длинным контекстом.”

Вместе они демонстрируют, что путь к повышению производительности в длинном контексте заключается не только в увеличении окон и моделей, но и в предоставлении ИИ структурированного способа управления тем, что он запоминает.