Речь идет о данных на базе 44 млн уникальных пользователей, 30 млн товаров и более 135 млрд взаимодействий. Данные позволяют анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменений. Ранее "Яндекс" выложил набор по рекомендациям в "Яндекс Музыке". В максимальной версии - это чуть менее 5 млрд записей.
Эксперты отмечают, что и то, и другое крайне ценно для тех, кто обучает свои рекомендательные алгоритмы, но не имеет доступа к данным. Обмен данными, в том числе через публикование открытых датасетов, - это обязательное условие для развития экономики данных, говорит Мария Сайкина, ведущий аналитик АНО "Цифровая экономика".
"Краткосрочные и долгосрочные предпочтения пользователей, тренды, сезонность, динамика - все это позволит качественнее обучать рекомендательные модели. Данные объединены в один датасет, который отображает действия пользователей, историю покупок, отзывы, чеки и взаимодействие с рекомендациями по товарам", - поясняет она.
Публикация таких наборов помогает ускорить исследования и разработки в рекомендационных системах: когда всем дают одну и ту же "песочницу" с данными, идеи быстрее проверяются, результаты проще сравнивать, добавляет Алексей Постригайло, старший партнер IT-интегратора "Энсайн". "Этими наборами пользуются университеты, продуктовые команды и независимые ML-инженеры - делают прототипы и статьи, а удачные подходы потом попадают в реальные продукты", - рассказывает он.
Постригайло пояснил, что данные публикуются строго обезличенные. "Редкие кейсы удаляются, добавляется статистический шум, доступ регулируется лицензией, прямо запрещающей деанонимизацию; теоретический риск "склейки" с внешними базами снижают техническими методами анонимизации и внешним аудитом. При соблюдении этой дисциплины инструмент приносит пользу и науке, и бизнесу - а про конкретных людей там утекать попросту нечему", - рассказал эксперт.