Последнее обновление Gemini от Google приближает голосовой режим к центральному режиму взаимодействия для поиска, добавляя новые возможности в SEO.
<п>Google обновил Search Live с помощью Gemini 2.5 Flash Native Audio, улучшив работу голосовых функций внутри поиска, а также расширив использование модели для переводов и живых голосовых агентов. Обновление вводит более естественные голосовые ответы в Search Live и отражает усилия Google по улучшению естественных голосовых запросов, рассматривая голос как основной интерфейс, позволяющий пользователям получать все, что они могут получить от обычного поиска, а также позволяя им задавать вопросы о физическом мире вокруг них и получать немедленный голосовой перевод между двумя людьми, говорящими на разных языках.
Новые обновленные голосовые возможности, которые появятся на этой неделе в США, голосовые ответы Google будут звучать более естественно, а для обучающего контента их можно будет даже замедлить.
По данным Google:
<блоковая цитата><п>“Когда вы переходите в режим Live с помощью поиска, вы можете вести голосовой разговор в режиме искусственного интеллекта, чтобы получать помощь в режиме реального времени и быстро находить подходящие сайты в Интернете. И теперь, благодаря нашей последней модели встроенного аудио Gemini, ответы в Search Live станут более плавными и выразительными, чем когда-либо прежде.”
Более широкий набор встроенного аудио Gemini
<п>Это обновление Поиска является частью более широкого обновления Gemini 2.5 Flash Native Audio, распространяемого в экосистеме Google, включая Gemini Live (в приложении Gemini), Google AI Studio и Vertex AI. Модель обрабатывает произнесенный звук в режиме реального времени и воспроизводит плавные речевые ответы, уменьшая барьеры для естественного разговора и уменьшая трения в живом взаимодействии. Хотя в объявлении Google не говорилось, что эта модель представляет собой модель преобразования речи в речь (в отличие от преобразования речи в текст, а затем преобразования текста в речь), это обновление последовало за октябрьским объявлением Google о «Речи в речь» (S2R). Это модель машинного обучения на основе нейронной сети, обученная на больших наборах данных парных аудиозапросов.
Эти изменения показывают, что Google рассматривает нативный звук как основную функцию во всех продуктах, ориентированных на потребителя, что упрощает пользователям запрашивать и получать информацию о физическом мире вокруг них естественным способом, что раньше было невозможно.
Усовершенствования для голосовых систем
Google заявляет, что для разработчиков и предприятий, создающих голосовые системы, обновленная модель повышает надежность в нескольких областях. Gemini 2.5 Flash Native Audio более последовательно запускает внешние функции во время разговора, выполняет сложные инструкции и поддерживает контекст на протяжении нескольких ходов. Эти улучшения делают голосовые агенты более надежными в реальных рабочих процессах, где неверно истолкованные инструкции или нарушенный поток разговора снижают удобство использования.
Плавный разговорный перевод
<п>Помимо поиска и голосовых агентов, в обновлении представлена встроенная поддержка «живого перевода речи в речь». Gemini переводит разговорную речь в реальном времени, либо непрерывно переводя окружающую речь на целевой язык, либо обрабатывая разговоры между носителями разных языков в обоих направлениях. Система сохраняет голосовые характеристики, такие как речевой ритм и акцент, обеспечивая более плавный и разговорный перевод.
Google выделяет несколько возможностей, поддерживающих эту функцию перевода, включая широкий языковой охват, автоматическое определение языка, многоязычную обработку ввода и фильтрацию шума для повседневной работы. Эти функции уменьшают сложность настройки и позволяют выполнять перевод пассивно во время разговора, а не с помощью ручного управления. В результате получается опыт перевода, который ведет себя так же, как настоящий человек, переводящий между двумя людьми.
Голосовой поиск, воплощающий чаяния Google
Обновление отражает продолжающуюся итерацию Google в области голосового поиска в направлении идеала, который изначально был вдохновлен научно-фантастическими голосовыми взаимодействиями между людьми и компьютерами в популярном сериале «Звездный путь».
