<стр>Прорыв в исследованиях Google DeepMind позволяет создать высокопроизводительную альтернативу моделям на основе трансформаторов, которая использует меньше ресурсовстр>
<п>Google DeepMind опубликовал исследовательскую работу, в которой предлагается языковая модель под названием RecurrentGemma, которая может соответствовать или превосходить производительность моделей на основе преобразователей, но при этом более эффективно использовать память, что обещает высокую производительность языковой модели в средах с ограниченными ресурсами.
В исследовательской работе представлен краткий обзор:
<блоковая цитата><п>«Мы представляем RecurrentGemma, модель открытого языка, использующую новую архитектуру Griffin от Google. Гриффин сочетает линейные повторения с локальным вниманием для достижения отличных результатов в языковом развитии. Он имеет состояние фиксированного размера, что уменьшает использование памяти и обеспечивает эффективный вывод для длинных последовательностей. Мы предоставляем предварительно обученную модель с 2B параметрами без встраивания и вариант, настроенный с помощью инструкций. Обе модели достигают производительности, сравнимой с Gemma-2B, несмотря на то, что обучаются на меньшем количестве токенов.”
Соединение с Джеммой
<п>Gemma — это открытая модель, в которой используется передовая технология Google Gemini, но она легкая и может работать на ноутбуках и мобильных устройствах. Подобно Gemma, RecurrentGemma также может работать в средах с ограниченными ресурсами. Другие сходства между Gemma и RecurrentGemma заключаются в данных перед обучением, настройке инструкций и RLHF (подкрепляемом обучении на основе обратной связи с человеком). RLHF — это способ использовать обратную связь от человека для обучения модели самостоятельному обучению для генеративного ИИ.
Архитектура Грифона
Новая модель основана на гибридной модели Griffin, анонсированной несколько месяцев назад. Грифона называют «гибридом»; модель, поскольку она использует два типа технологий: одна позволяет ей эффективно обрабатывать длинные последовательности информации, а другая позволяет ей сосредоточиться на самых последних частях входных данных, что дает ей возможность обрабатывать «значительно» ; больше данных (увеличенная пропускная способность) за тот же промежуток времени, что и модели на основе трансформатора, а также уменьшается время ожидания (задержка).
В исследовательской работе Гриффина были предложены две модели: одна под названием «Ястреб», а другая — «Гриффин». В исследовательской работе Гриффина объясняется, почему это прорыв:стр>
“…мы эмпирически подтверждаем преимущества Hawk и Griffin во времени вывода и наблюдаем снижение задержки и значительное увеличение пропускной способности по сравнению с базовыми показателями Transformer. Наконец, Хоук и Гриффин демонстрируют способность экстраполировать более длинные последовательности, чем они были обучены, и способны эффективно учиться копировать и извлекать данные на больших горизонтах. Эти результаты убедительно свидетельствуют о том, что предложенные нами модели представляют собой мощную и эффективную альтернативу Трансформаторам, привлекающую внимание всего мира».
блоковая>
Разница между Griffin и RecurrentGemma заключается в одной модификации, связанной с тем, как модель обрабатывает входные данные (входные внедрения).
<ч2>Прорывыч2>
В исследовательской статье говорится, что RecurrentGemma обеспечивает аналогичную или лучшую производительность, чем более традиционная модель преобразователя Gemma-2b (которая была обучена на 3 триллионах токенов против 2 триллионов для RecurrentGemma). Это одна из причин, по которой исследовательская работа называется «Оставляя позади модели трансформаторов». потому что он показывает способ достижения более высокой производительности без больших затрат ресурсов, связанных с архитектурой трансформатора.
Еще одно преимущество над моделями-трансформерами заключается в уменьшении использования памяти и более быстром времени обработки. В исследовательской статье объясняется:
<блоковая цитата><п>“Ключевым преимуществом RecurrentGemma является то, что он имеет значительно меньший размер состояния, чем преобразователи в длинных последовательностях. В то время как кэш KV Gemma растет пропорционально длине последовательности, состояние RecurrentGemma ограничено и не увеличивается на последовательностях, длина которых превышает размер локального окна внимания, составляющий 2 тыс. токенов. Следовательно, хотя самая длинная выборка, которую Gemma может сгенерировать авторегрессионно, ограничена доступной памятью на хосте, RecurrentGemma может генерировать последовательности произвольной длины.”
RecurrentGemma также превосходит модель преобразователя Gemma по пропускной способности (количество данных, которые можно обработать, чем больше, тем лучше). Пропускная способность модели преобразователя страдает от увеличения длины последовательности (увеличение количества токенов или слов), но это не относится к RecurrentGemma, которая способна поддерживать высокую пропускную способность.
В исследовательской работе показано:
<блоковая цитата><п>“На рисунке 1a мы отображаем пропускную способность, достигнутую при выборке из запроса из 2 тыс. токенов для диапазона длин генерации. Пропускная способность рассчитывает максимальное количество токенов, которые мы можем считывать в секунду на одном устройстве TPUv5e.
…RecurrentGemma обеспечивает более высокую пропускную способность при всех рассматриваемых длинах последовательностей. Пропускная способность, достигаемая RecurrentGemma, не уменьшается с увеличением длины последовательности, тогда как пропускная способность, достигаемая Gemma, падает по мере роста кэша.”
Ограничения повторяющейся Джеммы
Исследовательская работа показывает, что этот подход имеет свои ограничения, заключающиеся в отставании производительности по сравнению с традиционными моделями трансформаторов.
Исследователи подчеркивают ограничение при обработке очень длинных последовательностей, с которым могут справиться модели-трансформеры.
Согласно статье:
“Хотя модели RecurrentGemma очень эффективны для более коротких последовательностей, их производительность может отставать от традиционных моделей преобразователей, таких как Gemma-2B, при обработке чрезвычайно длинных последовательностей, требующих локального внимания. окно.”
Что это значит для реального мира
Важность этого подхода к языковым моделям заключается в том, что он предполагает наличие других способов улучшить производительность языковых моделей при использовании меньшего количества вычислительных ресурсов в архитектуре, которая не является моделью-трансформером. Это также показывает, что модель без преобразователя может преодолеть одно из ограничений размеров кэша модели преобразователя, которое имеет тенденцию увеличивать использование памяти.
В ближайшем будущем это может привести к применению языковых моделей, способных функционировать в средах с ограниченными ресурсами.
<стр>RecurrentGemma: Отказ от трансформаторов для эффективных моделей открытого языка (PDF)стр>