Новый метод извлечения намерений пользователей Google

Новый метод извлечения намерений пользователей Google

Новое исследование Google по извлечению намерений пользователей показывает, в каком направлении они выбирают следующее поколение искусственного интеллекта на устройстве

Google опубликовал исследовательскую работу о том, как извлечь намерения пользователя из взаимодействия с пользователем, которые затем можно использовать для автономных агентов. Обнаруженный ими метод использует небольшие модели на устройстве, которым не нужно отправлять данные обратно в Google, а это означает, что конфиденциальность пользователя защищена.

<п>Обнаруженные исследователи смогли решить проблему, разделив ее на две задачи. Их решение работало настолько хорошо, что могло превзойти базовую производительность мультимодальных моделей больших языков (MLLM) в крупных центрах обработки данных.

Маленькие модели в браузерах и устройствах

Основное внимание в исследовании уделяется выявлению намерений пользователя посредством серии действий, которые пользователь выполняет на своем мобильном устройстве или в браузере, а также сохранению этой информации на устройстве, чтобы никакая информация не отправлялась обратно в Google. Это означает, что обработка должна происходить на устройстве.

Они сделали это в два этапа.

<ол>

  • На первом этапе модель на устройстве суммирует действия пользователя.
  • Последовательность сводок затем отправляется второй модели, которая определяет намерение пользователя.
  • Исследователи объяснили:

    “…наш двухэтапный подход демонстрирует превосходную производительность по сравнению как с меньшими моделями, так и с современными большими MLLM, независимо от набора данных и типа модели.
    Наш подход также естественным образом обрабатывает сценарии с зашумленными данными, с которыми трудно справиться традиционным методам контролируемой точной настройки.”

    Извлечение намерений из взаимодействий пользовательского интерфейса

    <п>Извлечение намерений из снимков экрана и текстовых описаний взаимодействия с пользователем — это метод, предложенный в 2025 году с использованием мультимодальных моделей большого языка (MLLM). Говорят, что исследователи применили этот подход к своей проблеме, но использовали улучшенную подсказку.

    Исследователи объяснили, что извлечение намерения — нетривиальная задача, которую нужно решить, и что на этом этапе может произойти множество ошибок. Исследователи используют слово «траектория» для описания пути пользователя в мобильном или веб-приложении, представленного как последовательность взаимодействий.

    Путешествие пользователя (траектория) превращается в формулу, в которой каждый шаг взаимодействия состоит из двух частей:

    <ол>

  • <сильный>Наблюдение
    Это визуальное состояние экрана (скриншот), показывающее, где находится пользователь на этом этапе.
  • Действие
    Конкретное действие, которое пользователь выполнил на этом экране (например, нажатие кнопки, ввод текста или нажатие ссылки).
  • Они описали три качества хорошего извлеченного намерения:

    <блоковая цитата> <ул>

  • “верный: описывает только то, что действительно происходит на траектории;
  • комплексный: предоставляет всю информацию о намерениях пользователя, необходимую для воспроизведения траектории;
  • <ли>и уместно: не содержит посторонней информации сверх той, которая необходима для полноты.”

    Сложно оценить извлеченные намерения

    Исследователи объясняют, что классифицировать извлеченные намерения сложно, поскольку намерения пользователя содержат сложные детали (например, даты или данные транзакций), а намерения пользователя по своей сути субъективны и содержат двусмысленности, и эту проблему сложно решить. Причина, по которой траектории субъективны, заключается в том, что лежащие в их основе мотивы неоднозначны.

    <п>Например, выбрал ли пользователь продукт из-за цены или характеристик? Действия видны, но мотивы нет. Предыдущие исследования показали, что намерения между людьми совпадали на 80 % на веб-траекториях и на 76 % на мобильных траекториях, поэтому не похоже, что заданная траектория всегда может указывать на конкретное намерение.

    Двухэтапный подход

    После исключения других методов, таких как рассуждение по цепочке мыслей (CoT) (поскольку небольшие языковые модели плохо справляются с рассуждениями), они выбрали двухэтапный подход, который имитирует рассуждение по цепочке мыслей.

    Исследователи объяснили свой двухэтапный подход:

    “Во-первых, мы используем подсказки для создания сводки для каждого взаимодействия (состоящего из визуального снимка экрана и текстового представления действия) на траектории. Этот этап<бр>на основе подсказок, поскольку в настоящее время отсутствуют данные обучения со сводными метками для индивидуальных взаимодействий.

    Во-вторых, мы вводим все сводные данные уровня взаимодействия в модель второго этапа, чтобы сгенерировать общее описание намерений. На втором этапе применяем точную настройку…”

    Первый этап: Сводка скриншотов

    Первое резюме, для скриншота взаимодействия они делят резюме на две части, но есть и третья часть.

    <ол> <ли>Описание того, что отображается на экране.

  • Описание действий пользователя.
  • Третий компонент (спекулятивное намерение) — это способ избавиться от предположений о намерениях пользователя, когда модель по сути догадывается о том, что происходит. Эта третья часть обозначена как «спекулятивное намерение». и они на самом деле просто избавляются от этого. Удивительно, но позволение модели предполагать, а затем избавиться от этих спекуляций приводит к более качественному результату.

    Исследователи использовали несколько стратегий подсказки, и эта оказалась наиболее эффективной.

    Второй этап: создание общего описания намерения

    <п>На втором этапе исследователи доработали модель для создания общего описания намерений. Они точно настроили модель с помощью обучающих данных, состоящих из двух частей:

    . <ол>

  • Сводки, отражающие все взаимодействия на траектории
  • Соответствующая основная истина, описывающая общее намерение каждой из траекторий.
  • Поначалу модель имела тенденцию к галлюцинациям, потому что первая часть (входные сводки) потенциально неполна, в то время как “целевые намерения” являются полными. Это заставило модель научиться заполнять недостающие части, чтобы входные данные соответствовали целевым намерениям.

    Они решили эту проблему путем “переработки” целевые намерения путем удаления деталей, которые не отражены во входных сводках. Это научило модель делать выводы о намерениях только на основе входных данных.

    Исследователи сравнили четыре разных подхода и остановились на этом, поскольку он показал очень хорошие результаты.

    Этические соображения и ограничения

    <стр>Исследовательская статья заканчивается обобщением потенциальных этических проблем, при которых автономный агент может предпринимать действия, которые не в интересах пользователя, и подчеркивается необходимость создания надлежащих ограждений.

    Авторы также признали ограничения исследования, которые могут ограничить возможность обобщения результатов. Например, тестирование проводилось только на Android и в веб-средах, а это означает, что результаты могут не распространяться на устройства Apple. Еще одним ограничением является то, что исследование было ограничено пользователями в США на английском языке.

    В исследовательской работе или в сопроводительном сообщении в блоге нет ничего, что указывало бы на то, что эти процессы для извлечения намерений пользователя используются в настоящее время. Сообщение в блоге заканчивается сообщением о том, что описанный подход полезен:

    <п>«В конечном итоге, по мере того, как производительность моделей повышается, а мобильные устройства приобретают большую вычислительную мощность, мы надеемся, что понимание намерений на устройстве может стать строительным блоком для многих вспомогательных функций на мобильных устройствах в будущем».

    <ч2>Вынос

    Ни сообщение в блоге об этом исследовании, ни сама исследовательская статья не описывают результаты этих процессов как что-то, что можно было бы использовать в поиске с помощью ИИ или классическом поиске. Там упоминается контекст автономных агентов.

    В исследовательской работе явно упоминается контекст автономного агента на устройстве, который наблюдает за тем, как пользователь взаимодействует с пользовательским интерфейсом, а затем может сделать вывод, какова цель (намерение) этих действий.

    В документе перечислены два конкретных применения этой технологии:

    <ол>

  • <сильный>Проактивная помощь:
    Агент, который наблюдает за тем, что делает пользователь, для “расширенной персонализации” и «повышение эффективности работы».
  • <сильная>Персонализированная память
    Этот процесс позволяет устройству “запоминать” прошлые действия как намерение на будущее.
  • Показывает направление, в котором движется Google

    Хотя это может не использоваться сразу, оно показывает направление, в котором движется Google: небольшие модели на устройстве будут наблюдать за взаимодействием пользователей и иногда вмешиваться, чтобы помогать пользователям в зависимости от их намерений. Здесь под намерением понимается понимание того, что пытается сделать пользователь.

    Прочитайте сообщение в блоге Google здесь:

    Читать исследовательскую работу в формате PDF:

    <стр>Маленькие модели, большие результаты: достижение превосходного извлечения намерений посредством декомпозиции (PDF)

    Back To Top