Combler l’écart: les nouveaux ensembles de données poussent les recherches de recommandation vers une échelle réelle

 Combler l’écart: les nouveaux ensembles de données poussent les recherches de recommandation vers une échelle réelle


Contenu sponsorisé

Les systèmes de recommandation reposent sur des données, mais l’accès à des données vraiment représentatives est depuis longtemps un défi pour les chercheurs. La plupart des ensembles de données académiques pâlinent par rapport à la complexité et au volume des interactions utilisateur dans des environnements réels, où les données sont généralement verrouillées au sein des entreprises en raison de problèmes de confidentialité et de valeur commerciale.
Cela commence à changer.

Ces dernières années, plusieurs nouveaux ensembles de données ont été rendus publics qui visent à mieux refléter les modèles d’utilisation du monde réel, la musique couvante, le commerce électronique, la publicité et au-delà. Une sortie récente notable est Yambda-5bun ensemble de données d’événements de 5 milliards apporté par Yandex, basé sur les données de son service de streaming musical, désormais disponible via Hugging Face. Yambda est disponible en 3 tailles (50m, 500m, 5b) et comprend des lignes de base pour souligner l’accessibilité et la convivialité. Il rejoint une liste croissante de ressources contribuant à combler l’écart de recherche à la production dans les systèmes de recommandation.

Vous trouverez ci-dessous une brève étude des ensembles de données clés qui façonnent actuellement le champ.

Un aperçu des ensembles de données accessibles au public dans Recchandder Research

MOVIELENS

L’un des ensembles de données les plus anciennes et les plus utilisés. Il comprend des notes de films fournies par l’utilisateur (1 à 5 étoiles) mais est limitée en échelle et en diversité – idéal pour le prototypage initial mais pas représentatif des plateformes de contenu dynamique d’aujourd’hui.

Prix ​​Netflix

Un ensemble de données historique dans l’histoire des recommandations (~ 100 m de notes), bien que datée maintenant. Son instantané statique et son manque de métadonnées détaillées limitent l’applicabilité moderne.

Ensemble de données Yelp Open

Contient des avis de 8,6 millions, mais la couverture est clairsemée et spécifique à la ville. Précieux pour la recherche commerciale locale, mais pas optimal pour les modèles généralisables à grande échelle.

Playlist de Spotify Million

Sorti pour Recsys 2018, cet ensemble de données aide à analyser le comportement d’écoute à court terme et séquentiel. Cependant, il manque d’historique à long terme et de rétroaction explicite.

Criteo 1 To

Un ensemble de données de clics d’annonces massifs qui présente des interactions à l’échelle industrielle. Bien que impressionnant en volume, il offre des métadonnées minimales et priorise le taux de clics (CTR) sur la logique de recommandation.

Amazon Avis

Riche en contenu et largement utilisé pour l’analyse des sentiments et la recommandation à longue queue. Cependant, les données sont notoirement rares, avec une baisse abrupte d’interaction pour la plupart des utilisateurs et des produits.

Last.FM (LFM-1B)

Auparavant un choix pour les recommandations musicales. Les limitations de licence ont depuis restreint l’accès aux versions plus récentes de l’ensemble de données.

Se diriger vers la recherche à l’échelle industrielle

Bien que chacun de ces ensembles de données ait contribué à façonner le domaine, ils présentent tous des limites, soit à l’échelle, à la fraîcheur des données, à la diversité des utilisateurs ou à l’exhaustivité des métadonnées. C’est là que les nouvelles entrées, comme Yambda-5b, sont particulièrement prometteuses.

Cet ensemble de données propose des données d’interaction utilisateur à grande échelle anonymisées à travers les séances de streaming de musique, y compris des métadonnées telles que les horodatages, le type de rétroaction (explicite vs implicite) et le contexte de recommandation (organique vs suggéré). Surtout, il comprend une scission temporelle mondiale, permettant une évaluation de modèle plus réaliste qui reflète le déploiement du système en ligne. Les chercheurs trouveront également de la valeur dans la nature multimodale de l’ensemble de données, qui comprend des incorporations audio précomputées pour plus de 7,7 millions de pistes, permettant des stratégies de recommandation de contenu.

La confidentialité a été soigneusement considérée dans la conception de l’ensemble de données. Contrairement aux exemples antérieurs, tels que l’ensemble de données de prix Netflix, qui a finalement été retiré en raison des risques de réidentification. Les données d’utilisateur et de suivi de l’utilisateur dans l’ensemble de données Yambda sont anonymisées, en utilisant des identifiants numériques pour répondre aux normes de confidentialité.

Clôture de la boucle: de la théorie à la production

Au fur et à mesure que la recherche recommandée se déplace vers une application pratique à grande échelle, l’accès à des ensembles de données robustes, variés et d’origine éthique est essentiel. Des ressources comme Movielens et Netflix Prize restent fondamentales pour les idées d’analyse comparative et de test. Mais de nouveaux ensembles de données – comme Amazon, Criteo et maintenant Yambda – offrent le type d’échelle et de nuances nécessaires pour pousser les modèles de la nouveauté académique à l’utilitaire réel.

Lire l’article original à Post Turingla newsletter pour plus de 90 000 professionnels qui sont sérieux au sujet de l’IA et de la ML.

Par, Avi Chawla – Très passionné par l’approche et l’explication des problèmes de science des données avec l’intuition. AVI travaille dans le domaine de la science des données et de l’apprentissage automatique depuis plus de 6 ans, à la fois dans le monde universitaire et dans l’industrie.



Source link

Related post