Исследования показывают, что персона быстро «надежно» снижает точность выполнения некоторых типов задач, но хорошо работает в других категориях.
“Вы эксперт” Персональные подсказки могут как навредить производительности, так и помочь. Новое исследование показывает, что персональные подсказки улучшают соответствие человеческим ожиданиям, но могут снизить фактическую точность при выполнении задач, требующих больших знаний, причем эффекты варьируются в зависимости от типа задачи и модели. Вывод заключается в том, что персональные подсказки работают лучше для одних задач, чем для других.
Подсказка личности
<п>Персонифицированные подсказки — это распространенный способ формирования реакции больших языковых моделей, особенно в приложениях, где важны тон и соответствие человеческим ожиданиям. Он широко используется, поскольку улучшает восприятие и восприятие результатов. Учитывая, насколько широко распространены персональные подсказки, может показаться сюрпризом, что их фактическое влияние на производительность остается неясным, поскольку предыдущие исследования показывают противоречивые результаты, что ставит под сомнение саму технику относительно того, помогает она или вредит.
Исследователи пришли к выводу, что персональные подсказки не приносят ни пользы, ни вреда, и что их эффективность зависит от типа задачи.
Они нашли:
<ул> <ли>Это улучшает выходные данные, связанные с выравниванием, такие как тон, форматирование и поведение безопасности
мл>
Основываясь на этом, авторы представляют метод под названием PRISM (персональная маршрутизация посредством самомоделирования на основе намерений), который применяет персоны выборочно, используя маршрутизацию на основе намерений вместо того, чтобы рассматривать персоны как настройку по умолчанию. Их результаты показывают, что персональные подсказки лучше всего работают в качестве условного инструмента и позволяют лучше понять, когда персональные подсказки помогают, а когда их следует избегать.
<ч2>Управление поведенческими сигналамич2> <п>В третьем разделе статьи исследователи говорят, что эксперты имеют «полезные поведенческие сигналы»; но такое наивное использование образа, побуждающего к действию, не только помогает, но и вредит. Они говорят, что это поднимает вопрос о том, можно ли отделить эти преимущества от вреда и применять только там, где они улучшают результаты.
Поведенческие сигналы влияют на выход LLM. Эти сигналы являются причиной того, что персональные подсказки работают. Они способствуют улучшению тона, структуры, безопасного поведения и того, насколько ответы соответствуют ожиданиям. Без них персональные подсказки не имели бы никакой пользы.
Тем не менее, как это ни парадоксально, статья показывает, что те же сигналы мешают решению задач, которые зависят от фактической точности и рассуждений. Вот почему в статье они рассматриваются как нечто, чем нужно управлять, а не максимизировать.
<сильный> Эти сигналы включают в себя:сильный>
<ул>
<ли>Соблюдение формата: помогает модели следовать сложным структурам, таким как профессиональные электронные письма или пошаговые объяснения STEM.
Персональная подсказка побеждает
В статье было обнаружено, что персональные подсказки оказались выигрышными в пяти из восьми категорий задач:
<ол> <ли>Извлечение: увеличение очков на +0,65.
ол>
Персонализированные подсказки победили в вышеуказанных категориях, потому что они больше связаны со стилем и ясностью, чем с тем, верен ли ответ с точки зрения фактов и знаний. Они также обнаружили, что чем длиннее и детальнее персонаж, тем сильнее становятся согласованность и безопасное поведение.
Ошибки при вводе пароля
<п>И наоборот, образ эксперта постоянно ухудшал показатели в оставшихся трех (из восьми) категориях, поскольку они полагаются на точное извлечение фактов или строгую логику, а не на стиль и ясность. Причина падения производительности в том, что добавление детального экспертного образа существенно «отвлекает» пользователя. модель, активировав “режим следования инструкциям” который отдает приоритет тону и стилю.
Активация экспертных личностей происходит за счет «фактического воспоминания». Модель настолько сосредоточена на попытке действовать как эксперт, что забывает информацию, которую она узнала во время первоначального обучения. Это объясняет падение точности фактов и математики.
Подсказки эксперта по персонам работали хуже в следующих трех категориях:
<ол>
ол> <п>В документе отмечается, что по одному из тестов знаний (MMLU) точность упала с базового уровня 71,6% до 68,0% даже при использовании “минимального” персона, и упала еще больше до 66,3% с “long” персона.п>
Они объяснили улучшения безопасности:
“Более подробные описания персонажей предоставляют более подробную информацию о выравнивании, пропорционально усиливая поведение при настройке инструкций.”
И показал, почему фактическая точность страдает:
“Personal Damages Предварительные тренировочные задания
В ходе предварительного обучения языковые модели приобретают такие возможности, как запоминание фактических знаний, классификация, распознавание взаимосвязей сущностей и нулевое рассуждение. Доступ к этим способностям можно получить, не полагаясь на настройку инструкций, и они могут быть повреждены дополнительным контекстом, следующим за инструкциями, например, подсказками эксперта.”
<ч2>Выводы сделаныч2>
Исследователи приходят к выводу, что персональные подсказки постоянно улучшают задачи, зависящие от мировоззрения, такие как письмо, ролевые игры и безопасное поведение, в то же время ухудшая производительность при выполнении задач, которые основаны на знаниях, основанных на предварительной подготовке, включая математику, программирование и общие тесты знаний.
<п>Они также обнаружили, что чувствительность модели к персонажам зависит от ее подготовки. Модели, более оптимизированные для следования инструкциям, более «управляемы». это означает, что они получают наибольший прирост безопасности и тона, но при этом страдают от самого большого падения фактической точности.
<ч2>Выносч2> <п><сильный>1. Будьте избирательны в использовании персонализированных подсказок:
<ул>
мл> <п><сильный>2. Подсказка персонажа эффективна для:
<ул>
<ли>Тонли>
мл> <п><сильный>3. Задачи, для которых не нужны персональные подсказки, вместо этого для сохранения точности следует использовать нейтральные подсказки:
<ул> <ли>Проверка фактовли>
<ли>Исследованиели>
мл>
<сильный>4. Запомните эти три вывода:
<ул>
мл>
<сильный>5. Сопоставьте подсказки с заданием:
<ул>
мл>
Самый эффективный подход – это не одна подсказка, а рабочий процесс, который переключает подсказки в зависимости от задачи, аналогично подходу исследователя PRISM.
