Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.
Дело в том, что современные алгоритмы требуют для обучения куда больше данных, чем можно найти в опенсорсе. Такие датасеты есть у коммерческих компаний, но их редко публикуют из-за их бизнес-ценности.
Поэтому исследователям приходится использовать устаревшие и небольшие наборы данных. Обученные на них модели часто теряют эффективность при масштабировании.
Датасет будет полезен не только для стриминговых сервисов. Это универсальный инструмент для оценки качества новых подходов и алгоритмов в различных областях, которые используют рекомендательные системы.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Этот и другие факты о наших продактах ищите в фан-исследовании Яндекса. Для него мы провели большой опрос и глубинные интервью с менеджерами из Яндекс Еды, Яндекс Музыки, Яндекс 360, Яндекс Станции, Яндекс Лавки и Яндекс Путешествий. Например, ребята рассказали:
Получились истории с вайбом разговора на кофепойнте: продакты делятся болями, байками и неожиданными откровениями. И попутно показывают, какой разной и захватывающей может быть работа в Яндексе.
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM