Infini-attention от Google можно легко добавить в существующие модели, включая модели основного алгоритма Google
Google опубликовал исследовательскую работу о новой технологии под названием Infini-attention, которая позволяет обрабатывать огромные объемы данных с “бесконечно длинными контекстами” а также его можно легко вставить в другие модели, чтобы значительно улучшить их возможности
Последняя часть должна представлять интерес для тех, кто интересуется алгоритмом Google. Infini-attention работает по принципу «подключи и работай», что означает, что его относительно легко вставить в другие модели, в том числе те, которые используются основным алгоритмом Google. Часть о “бесконечно длинных контекстах” может иметь значение для обновления некоторых поисковых систем Google.
<стр>Название исследовательской работы: Не оставляйте контекста позади: эффективные бесконечные преобразователи контекста с бесконечным вниманием
Память требует больших вычислительных затрат для LLM
Модели больших языков (LLM) имеют ограничения на объем данных, которые они могут обрабатывать за один раз, поскольку вычислительная сложность и использование памяти могут значительно возрасти. Infini-Attention дает LLM возможность обрабатывать более длинные контексты, сохраняя при этом ненужную память и необходимую вычислительную мощность.
<п><эм>В исследовательской статье объясняется:
“Память служит краеугольным камнем интеллекта, поскольку позволяет проводить эффективные вычисления, адаптированные к конкретным контекстам. Однако Трансформеры …и LLM на основе Трансформеров …имеют ограниченную контекстно-зависимую память из-за природы механизма внимания.
Действительно, масштабирование LLM для более длинных последовательностей (т. е. 1 млн токенов) является сложной задачей при использовании стандартных архитектур Transformer, а обслуживание все более и более длинных контекстных моделей становится дорогостоящим с финансовой точки зрения.”
блочная>
И в другом месте в исследовательской работе объясняется:
“Модели трансформаторов тока ограничены в способности обрабатывать длинные последовательности из-за квадратичного увеличения затрат на вычисления и память. Infini-attention стремится решить эту проблему масштабируемости.”
Исследователи предположили, что Infini-attention может масштабироваться для обработки чрезвычайно длинных последовательностей с помощью Transformers без обычного увеличения вычислительных ресурсов и ресурсов памяти.
Три важные особенности
<п>Infini-attention от Google устраняет недостатки моделей преобразователей, включая три функции, которые позволяют LLM на основе преобразователей обрабатывать более длинные последовательности без проблем с памятью, а также использовать контекст из более ранних данных в последовательности и сопоставлять их с контекстом. дальше к концу последовательности.
Функции Infini-Attention
<ул>
Система сжатия памяти Длительное линейное внимание Внимание местных жителей в масках мл>
Сжатая система памяти
<п>Infini-attention использует так называемую систему сжатия памяти. По мере ввода большего количества данных (как части длинной последовательности данных) система сжатия памяти сжимает часть старой информации, чтобы уменьшить объем пространства, необходимого для хранения данных. .п> <ч2>Длительное линейное вниманиеч2>
Бесконечное внимание также использует так называемые «механизмы долговременного линейного внимания». которые позволяют LLM обрабатывать данные, существующие ранее в последовательности.
Это важно для задач, где контекст существует на более широком уровне данных. Это похоже на возможность обсудить всю книгу в контексте всех глав и объяснить, как первая глава связана с другой главой в середине книги.стр><ч2>Внимание местных жителей в маскахч2>
В дополнение к долговременному вниманию, Infini-внимание также использует так называемое локальное маскированное внимание. Этот вид внимания обрабатывает близлежащие (локализованные) части входных данных, что полезно для ответов, которые зависят от более близких частей данных.
Объединение долгосрочного и локального внимания помогает решить проблему ограниченности преобразователей объемом входных данных, которые они могут запомнить и использовать для контекста.
Исследователи объясняют:
<блоковая цитата><п>“Инфини-внимание включает в себя сжимающую память в ванильном механизме внимания и объединяет механизмы как замаскированного локального внимания, так и механизмы долговременного линейного внимания в одном блоке Трансформера.”
блочная> <ч2>Результаты экспериментов и испытанийч2>
Infini-attention тестировался с использованием обычных моделей для сравнения нескольких тестов, включающих длинные входные последовательности, таких как языковое моделирование с длинным контекстом, получение ключа доступа и задачи сводки книг. Получение ключа доступа — это тест, в котором языковая модель должна извлечь определенные данные из чрезвычайно длинной текстовой последовательности.
Список трех тестов:
<ол> <ли>Долгоконтекстное языковое моделирование
Проверка пароля Описание книги ол>
Языковое моделирование с длинным контекстом и показатель недоумения
Исследователи пишут, что модели с Infini-вниманием превзошли базовые модели и что увеличение длины обучающей последовательности привело к еще большему улучшению показателя Perplexity. Оценка Perplexity — это показатель, измеряющий производительность языковой модели. Более низкие оценки указывают на лучшую производительность.
Исследователи поделились своими выводами:
<блоковая цитата><п>“Infini-Transformer превосходит базовые показатели как Transformer-XL …, так и Memorizing Transformers, сохраняя при этом в 114 раз меньше параметров памяти, чем модель Memorizing Transformer с KV-памятью на основе векторного поиска длиной 65 КБ на 9-м уровне. Infini-Transformer превосходит трансформаторы с памятью с объемом памяти 65 КБ и обеспечивает степень сжатия 114x.
Мы дополнительно увеличили длину обучающей последовательности с 32 КБ до 100 КБ и обучили модели на наборе данных Arxiv-math. Обучение на 100 тысячах еще больше снизило показатель недоумения до 2,21 и 2,20 для моделей Linear и Linear + Delta.”
Проверка пароля
<п>Тест ключа доступа заключается в том, что случайное число скрывается в длинной текстовой последовательности, и задача состоит в том, чтобы модель извлекла скрытый текст. Ключ доступа скрыт в начале, середине или конце длинного текста. Модель смогла решить тест пароля длиной до 1 миллиона.
“LLM 1B естественным образом масштабируется до длины последовательности 1M и решает задачу извлечения ключа доступа, возникающую при использовании Infini-внимания. Infini-Transformers решили задачу с ключом доступа с длиной контекста до 1 М при точной настройке входных данных длиной 5 КБ. Мы сообщаем о точности извлечения на уровне токена ключей доступа, спрятанных в разных частях (начале/середине/конце) длинных входных данных длиной от 32 КБ до 1 М.”
Краткий тест по книге
Infini-attention также преуспел в итоговом тесте книги, превзойдя высшие тесты и достигнув нового уровня производительности (SOTA).
Описаны результаты:
“Наконец, мы показываем, что модель 8B с вниманием Infini достигает нового результата SOTA в сводной задаче книги длиной 500 КБ после непрерывного предварительного обучения и проверки задачи. -настройка.
<п>…Мы дополнительно масштабировали наш подход, непрерывно предварительно обучая модель 8B LLM с входной длиной 8 КБ для 30 000 шагов. Затем мы доработали задачу BookSum (Kry´sci´nski et al., 2021), целью которой является создание краткого изложения всего текста книги.
Наша модель превосходит предыдущие лучшие результаты и достигает нового SOTA на BookSum за счет обработки всего текста из книги. …Существует четкая тенденция, показывающая, что чем больше текста поступает из книг, наши Infini-Transformers улучшают свои сводные показатели производительности.”
Последствия Infini-Attention для SEO
<п>Infini-attention — это прорыв в моделировании внимания на дальние и короткие дистанции с большей эффективностью, чем предыдущие модели без Infini-внимания. Он также поддерживает непрерывное предварительное обучение “plug-and-play и долгосрочную адаптацию” а это означает, что его можно легко интегрировать в существующие модели.
Наконец, “постоянное предварительное обучение и долгосрочная адаптация” делает его идеальным для сценариев, в которых имеется поток новых данных его постоянно необходимо добавлять для обучения модели. Последняя часть очень интересна, потому что она может оказаться полезной для приложений на внутренней стороне поисковых систем Google, особенно там, где необходимо иметь возможность анализировать длинные последовательности информации и понимать релевантность одной части, ближайшей к ней. от начала последовательности до другой части, которая ближе к концу.
Тот факт, что исследователи заявляют о «бесконечно длинных входных данных»; Удивительно, но что действительно важно для SEO, так это то, что этот механизм представляет собой способность обрабатывать длинные последовательности данных, чтобы «не оставлять позади никакого контекста». а также его аспект «подключи и работай». Это дает представление о том, как можно было бы улучшить некоторые системы Google, если бы Google адаптировал внимание Infini к системам в рамках своего основного алгоритма.