un format de métadonnées pour les ensembles de données prêts pour ML

Les praticiens de l’apprentissage automatique (ML) qui cherchent à réutiliser des ensembles de données existants pour former un modèle ML passent souvent beaucoup de temps à comprendre les données, à donner un sens à son organisation ou à déterminer quel sous-ensemble utiliser comme fonctionnalités. Tant de temps, en fait, que les progrès dans le domaine de la ML sont entravés par un obstacle fondamental: la grande variété de représentations de données.
Les ensembles de données ML couvrent un large éventail de types de contenu, du texte et des données structurées aux images, audio et vidéo. Même dans des ensembles de données qui couvrent les mêmes types de contenu, chaque ensemble de données a un ad hoc Arrangement des fichiers et formats de données. Ce défi réduit la productivité tout au long du processus de développement de la ML, de la recherche des données à la formation du modèle. Il entrave également le développement d’un outillage gravement nécessaire pour travailler avec des ensembles de données.
Il existe des formats de métadonnées à usage général pour des ensembles de données tels que schéma.org et Dcat. Cependant, ces formats ont été conçus pour la découverte de données plutôt que pour les besoins spécifiques des données ML, telles que la capacité d’extraire et de combiner des données à partir de sources structurées et non structurées, pour inclure des métadonnées qui permettraient Utilisation responsable des données, ou pour décrire les caractéristiques d’utilisation de la ML telles que la définition des ensembles de formation, de test et de validation.
Aujourd’hui, nous présentons Croissantun nouveau format de métadonnées pour les ensembles de données prêts pour ML. Croissant a été développé en collaboration par une communauté de l’industrie et du monde universitaire, dans le cadre du Mlcommons effort. Le format croissant ne change pas la façon dont les données réelles sont représentées (par exemple, les formats d’image ou de fichiers texte) – il fournit un moyen standard de décrire et de l’organiser. Croissant s’appuie sur schéma.orgla norme de facto pour publier des données structurées sur le Web, qui est déjà utilisée par plus de 40 mètres de données. Croissant les augmente avec des couches complètes pour les métadonnées pertinentes ML, les ressources de données, l’organisation des données et la sémantique ML par défaut.
De plus, nous annonçons le support des principaux outils et référentiels: aujourd’hui, trois collections largement utilisées d’ensembles de données ML – Se gêner, Visage étreintet OpenML – commencera à soutenir le format croissant pour les ensembles de données qu’ils hébergent; le Recherche d’ensemble de données Tool permet aux utilisateurs de rechercher des ensembles de données Croissant sur le Web; et des cadres ML populaires, y compris Tensorflow, Pytorchet Jaxpeut charger facilement des ensembles de données de croissant en utilisant le Ensembles de données TensorFlow (TFDS) Package.