Как могут работать рекомендательные системы, такие как Google Discover

<стр>Обзор классической системы рекомендаций, которая может повлиять на работу Google Discover.

<п>Google Discover во многом остается загадкой для издателей и сообщества поискового маркетинга, хотя Google опубликовал официальное руководство о том, что это такое и что, по их мнению, издатели должны знать о нем. Тем не менее, она настолько загадочна, что ее обычно даже не рассматривают как рекомендательную систему, но это именно то, чем она является. Это обзор классической исследовательской работы, показывающей, как масштабировать рекомендательную систему. Хотя это и предназначено для YouTube, нетрудно представить, как такую систему можно адаптировать к Google Discover.

Модель двухбашенной рекомендательной системы

Современный стиль рекомендательных систем иногда называют архитектурой двух башен или моделью двух башен. Модель двух башен возникла как решение для YouTube, хотя в оригинальной исследовательской работе (Deep Neural Networks for YouTube Reviews) этот термин не используется.

<п>Может показаться нелогичным обращаться к YouTube, чтобы понять, как работает алгоритм Google Discover, но факт заключается в том, что система, которую Google разработал для YouTube, стала основой для масштабирования рекомендательной системы для среды, где огромные объемы контента создаются каждый час в сутки, 24 часа в сутки.

Это называется архитектурой двух башен, потому что есть два представления, которые сопоставляются друг с другом, как две башни.

В этой модели, которая обрабатывает начальный “поиск” контента из базы данных, нейронная сеть обрабатывает пользовательскую информацию для создания пользовательского внедрения, в то время как элементы контента представляются своими собственными внедрениями. Эти два представления сопоставляются с использованием оценки сходства, а не объединяются в одной сети.

Я повторю, что в исследовательской работе эта архитектура не упоминается как архитектура с двумя башнями, это описание такого подхода, который был создан позже. Итак, хотя в исследовательской работе не используется слово «башня», я собираюсь продолжать использовать его, поскольку оно облегчает визуализацию того, что происходит в такой рекомендательной системе.

<сильный>Башня пользователя
User Tower обрабатывает такие вещи, как история просмотров пользователя, токены поиска, местоположение и базовые демографические данные. Он использует эти данные для создания векторного представления, отображающего конкретные интересы пользователя в математическом пространстве.

<сильный>Башня предметов
Башня предметов представляет контент с использованием изученных векторов внедрения. В исходной реализации YouTube они обучались вместе с моделью пользователя и сохранялись для быстрого поиска. Это позволяет системе сравнивать “координаты” пользователя; против миллионов видео “координат” мгновенно, без необходимости проводить сложный анализ каждого видео каждый раз, когда вы обновляете ленту.

<х2>Проблема свежего контента

Исследовательская работа Google предлагает интересный взгляд на свежесть. Проблема свежести описывается как компромисс между эксплуатацией и исследованием. Система рекомендаций YouTube должна балансировать между показом пользователям контента, который уже известен как популярный (эксплуатация), и предоставлением им нового и непроверенного контента (исследование). Что мотивирует Google показывать новый, но непроверенный контент, по крайней мере, в контексте YouTube, так это то, что пользователи отдают предпочтение новому и свежему контенту.

В исследовательской работе объясняется, почему важен свежий контент:

<блоковая цитата><п>“Каждую секунду на YouTube загружается многочасовое видео. Рекомендовать недавно загруженный («свежий») контент чрезвычайно важно для YouTube как продукта. Мы постоянно наблюдаем, что пользователи предпочитают свежий контент, хотя и не в ущерб релевантности.”

<п>Эта тенденция показывать свежий контент, по-видимому, справедлива и для Google Discover, где Google имеет тенденцию показывать свежий контент по темам, которые лично интересуют пользователей. Вы когда-нибудь замечали, что Google Discover имеет тенденцию отдавать предпочтение свежему контенту? Информация, полученная исследователями о предпочтениях пользователей, вероятно, переносится в систему рекомендаций Google Discover. Вывод: регулярное создание контента может быть полезно для появления веб-страниц в Google Discover.

Интересное открытие в этой исследовательской работе, и я не знаю, верно ли оно до сих пор, но все же интересно, заключается в том, что исследователи заявляют, что алгоритмы машинного обучения демонстрируют неявную предвзятость к более старому существующему контенту, поскольку они обучаются на исторических данных.

Они объясняют:

“Системы машинного обучения часто демонстрируют неявную предвзятость по отношению к прошлому, потому что они обучены предсказывать будущее поведение на основе исторических примеров.”

Нейронная сеть обучается на прошлых видео и узнает, что вещи, снятые один или два дня назад, были популярны. Но это создает предвзятость в отношении событий, произошедших в прошлом. Они решили проблему актуальности: когда система рекомендует видео пользователю (показывает), для этой временной функции установлено значение ноль дней назад (или немного отрицательное). Это сигнализирует модели о том, что она делает прогноз в самом конце окна обучения, по сути вынуждая ее прогнозировать то, что популярно сейчас, а не то, что было в среднем популярно в прошлом.

Точность данных о кликах

<п>Фундаментальное исследование Google также дает представление о неявных сигналах обратной связи с пользователем, которые являются ссылкой на данные о кликах. Исследователи говорят, что такого рода данные редко дают точную информацию об удовлетворенности пользователей.

Исследователи пишут:

“Шум: историческое поведение пользователей на YouTube по своей природе трудно предсказать из-за разреженности и множества ненаблюдаемых внешних факторов. Мы редко получаем достоверную информацию об удовлетворенности пользователей и вместо этого моделируем шумные неявные сигналы обратной связи. Более того, метаданные, связанные с контентом, плохо структурированы без четко определенной онтологии. Нашим алгоритмам нужно
чтобы быть устойчивыми к этим конкретным характеристикам наших обучающих данных.”

<п>В заключение исследователи утверждают, что такой подход к рекомендательным системам помог увеличить время просмотра пользователями и оказался более эффективным, чем другие системы.

Они пишут:

“Мы описали архитектуру нашей глубокой нейронной сети для рекомендации видео на YouTube, разделив ее на две отдельные задачи: генерацию кандидатов и ранжирование.
Наша модель глубокой совместной фильтрации способна эффективно усваивать множество сигналов и моделировать их взаимодействие с уровнями глубины, превосходя предыдущие подходы матричной факторизации, использовавшиеся на YouTube.

Мы продемонстрировали, что использование возраста обучающего примера в качестве входного признака устраняет присущую модели предвзятость к прошлому и позволяет модели представлять зависимость популярности видео от времени. Это улучшило результаты точности удержания в автономном режиме и значительно увеличило время просмотра недавно загруженных видео в A/B-тестировании.

Рейтинг — это более классическая задача машинного обучения, однако наш подход к глубокому обучению превосходит предыдущие линейные и древовидные методы прогнозирования времени просмотра. Рекомендательные системы, в частности, выигрывают от специализированных функций, описывающих поведение пользователей в прошлом с элементами. Глубокие нейронные сети требуют специальных представлений категориальных и непрерывных признаков, которые мы преобразуем с помощью встраивания и квантильной нормализации соответственно.”

Хотя этой исследовательской работе уже десять лет, она по-прежнему дает представление о том, как работают рекомендательные системы, и приоткрывает немного тайны из рекомендательных систем, таких как Google Discover. Прочтите оригинальную исследовательскую работу: Глубокие нейронные сети для рекомендаций YouTube