Google объявляет о новой эре голосового поиска

Google объявляет о новой эре голосового поиска

Google объявил о крупном обновлении голосового поиска, который использует искусственный интеллект, чтобы сделать его быстрее и точнее, назвав это новой эрой.

Google объявил об обновлении голосового поиска, которое меняет способ обработки и последующего ранжирования голосовых поисковых запросов. Новая модель искусственного интеллекта использует речь в качестве входных данных для процесса поиска и ранжирования, полностью минуя этап преобразования голоса в текст.

Старая система называлась Cascade ASR, где голосовой запрос преобразуется в текст, а затем проходит обычный процесс ранжирования. Проблема этого метода в том, что он подвержен ошибкам. В процессе преобразования аудио в текст могут потеряться некоторые контекстные подсказки, что может привести к ошибке.

<п>Новая система называется «Речь-поиск» (S2R). Это модель машинного обучения на основе нейронной сети, обученная на больших наборах данных парных аудиозапросов и документов. Такое обучение позволяет ему обрабатывать голосовые поисковые запросы (без преобразования их в текст) и сопоставлять их непосредственно с соответствующими документами.

Модель с двумя энкодерами: две нейронные сети

В системе используются две нейронные сети:

<ол> <ли>Одна из нейронных сетей, называемая аудиокодером, преобразует устные запросы в представление их значения в векторном пространстве.

  • Вторая сеть, кодировщик документов, представляет письменную информацию в том же векторном формате.
  • Два кодировщика учатся отображать речевые запросы и текстовые документы в общее семантическое пространство, так что связанные аудио и текстовые документы оказываются близко друг к другу в соответствии с их семантическим сходством.

    Аудиокодер

    Speech-to-Retrieval (S2R) берет звук чьего-либо голосового запроса и преобразует его в вектор (числа), который представляет семантическое значение того, о чем человек спрашивает.

    <п>В анонсе использован пример знаменитой картины Эдварда Мунка «Крик». В этом примере произнесенная фраза “картина крика” становится точкой в ​​векторном пространстве рядом с информацией о «Крике» Эдварда Мунка (например, музеем, в котором он находится и т. д.).

    Кодер документов

    Кодер документов делает то же самое с текстовыми документами, такими как веб-страницы, превращая их в собственные векторы, которые представляют содержание этих документов.

    Во время обучения модели оба кодировщика обучаются вместе, так что векторы для сопоставления аудиозапросов и документов оказываются рядом друг с другом, а несвязанные векторы находятся далеко друг от друга в векторном пространстве.

    Богатое векторное представление

    В объявлении Google говорится, что кодировщики преобразуют аудио и текст в «богатые векторные представления». Богатое векторное представление — это встраивание, которое кодирует смысл и контекст аудио и текста. Его называют «богатым». потому что оно содержит намерение и контекст.

    <п>Для S2R это означает, что система не полагается на сопоставление ключевых слов; оно “понимает” концептуально то, что просит пользователь. Так что даже если кто-то скажет: «Покажите мне кричащую раскраску лица Мунка», векторное представление этого запроса все равно окажется рядом с документами о The Scream.

    Согласно объявлению Google:

    “Ключевым моментом этой модели является то, как она обучается. Используя большой набор данных парных аудиозапросов и соответствующих документов, система учится настраивать параметры обоих кодеров одновременно.

    <п>Цель обучения гарантирует, что вектор аудиозапроса геометрически близок к векторам соответствующих ему документов в пространстве представления. Такая архитектура позволяет модели узнать что-то близкое к основному замыслу, необходимому для извлечения непосредственно из аудио, минуя хрупкий промежуточный этап расшифровки каждого слова, что является основным недостатком каскадной конструкции.”

    Ранговый уровень

    S2R имеет процесс ранжирования, как и обычный текстовый поиск. Когда кто-то произносит запрос, звук сначала обрабатывается предварительно обученным аудиокодером, который преобразует его в числовую форму (вектор), которая передает то, что имеет в виду человек. Затем этот вектор сравнивается с индексом Google, чтобы найти страницы, значения которых наиболее похожи на устный запрос.

    <стр>Например, если кто-то скажет «картина крика», то модель превращает эту фразу в вектор, отражающий ее значение. Затем система просматривает индекс документов и находит страницы с близкими векторами, например, информацию о «Крике» Эдварда Мунка.

    Как только эти вероятные совпадения идентифицированы, начинается отдельный этап ранжирования. Эта часть системы объединяет оценки сходства, полученные на первом этапе, с сотнями других сигналов ранжирования по релевантности и качеству, чтобы решить, какие страницы должны ранжироваться первыми.

    <ч2>Бенчмаркинг

    Google протестировал новую систему с Cascade ASR и с версией Cascade ASR с отличными оценками под названием Cascade Groundtruth. S2R победил Cascade ASR и почти сравнялся с Cascade Groundtruth. Google пришел к выводу, что производительность многообещающая, но есть возможности для дальнейшего улучшения.

    Голосовой поиск работает

    Хотя сравнительный анализ показал, что есть возможности для улучшения, Google объявил, что новая система работает и используется на нескольких языках, назвав это новой эрой в поиске. Вероятно, система используется на английском языке.

    Google объясняет:

    “Голосовой поиск теперь работает на основе нашей новой системы преобразования речи в поиск, которая получает ответы прямо на ваш устный запрос без необходимости предварительного преобразования его в текст, что обеспечивает более быстрый и надежный поиск для всех.”

    Back To Top