Meilleures pratiques pour l’enrichissement des données

 Meilleures pratiques pour l’enrichissement des données


Construire une approche responsable de la collecte de données avec le partenariat sur l’IA

Chez DeepMind, notre objectif est de nous assurer que tout ce que nous faisons répond aux normes de sécurité et d’éthique les plus élevées, conformément à notre Principes de fonctionnement. L’un des endroits les plus importants avec qui cela commence est la façon dont nous collectons nos données. Au cours des 12 derniers mois, nous avons collaboré avec Partenariat sur l’IA (PAI) pour considérer soigneusement ces défis et avoir co-développé les meilleures pratiques et processus standardisés pour la collecte responsable des données humaines.

Collecte de données humaines

Il y a plus de trois ans, nous avons créé notre comité d’éthique de la recherche sur le comportement humain (HUBREC), un groupe de gouvernance modélisé sur les comités de revue institutionnels académiques (IRB), tels que ceux trouvés dans les hôpitaux et les universités, dans le but de protéger la dignité, les droits et l’alliance des participants humains impliqués dans nos études. Ce comité supervise la recherche comportementale impliquant des expériences avec les humains comme sujet d’étude, tels que l’étude de la façon dont les humains interagissent avec les systèmes d’intelligence artificielle (IA) dans un processus décisionnel.

Parallèlement aux projets impliquant une recherche comportementale, la communauté de l’IA s’est engagée de plus en plus dans des efforts impliquant un «  enrichissement des données  » – des tâches effectuées par les humains pour former et valider des modèles d’apprentissage automatique, comme l’étiquetage des données et l’évaluation des modèles. Bien que la recherche comportementale repose souvent sur des participants volontaires qui font l’objet d’études, l’enrichissement des données implique que les personnes sont payées pour effectuer des tâches qui améliorent les modèles d’IA.

Ces types de tâches sont généralement effectués sur les plates-formes de crowdsourcing, ce qui augmente souvent des considérations éthiques liées à la rémunération, au bien-être des travailleurs et aux capitaux propres qui peuvent manquer des conseils ou des systèmes de gouvernance nécessaires pour garantir que des normes suffisantes sont respectées. À mesure que les laboratoires de recherche accélèrent le développement de modèles de plus en plus sophistiqués, la dépendance à l’égard des pratiques d’enrichissement des données augmentera probablement et à côté de cela, la nécessité de conseils plus forts.

Dans le cadre de nos principes d’exploitation, nous nous engageons à maintenir et à contribuer aux meilleures pratiques dans les domaines de la sécurité et de l’éthique de l’IA, y compris l’équité et la vie privée, pour éviter des résultats involontaires qui créent des risques de préjudice.

Les meilleures pratiques

Après Pai’s Livre blanc récent Sur l’approvisionnement responsable des services d’enrichissement des données, nous avons collaboré pour développer nos pratiques et processus pour l’enrichissement des données. Cela comprenait la création de cinq étapes que les praticiens de l’IA peuvent suivre pour améliorer les conditions de travail des personnes impliquées dans les tâches d’enrichissement des données (pour plus de détails, veuillez visiter Les directives d’approvisionnement enrichies des données de PAI):

  1. Sélectionnez un modèle de paiement approprié et assurez-vous que tous les travailleurs sont payés au-dessus du salaire décent local.
  2. Concevez et exécutez un pilote avant de lancer un projet d’enrichissement des données.
  3. Identifiez les travailleurs appropriés pour la tâche souhaitée.
  4. Fournir des instructions vérifiées et / ou du matériel de formation aux travailleurs à suivre.
  5. Établir des mécanismes de communication clairs et réguliers avec les travailleurs.

Ensemble, nous avons créé les politiques et ressources nécessaires, rassemblant plusieurs cycles de rétroaction de nos équipes internes juridiques, données, sécurité, éthiques et de recherche dans le processus, avant de les piloter sur un petit nombre de projets de collecte de données et de les déployer plus tard dans l’organisation au sens large.

Ces documents donnent plus de clarté sur la meilleure façon de mettre en place des tâches d’enrichissement des données chez DeepMind, améliorant la confiance de nos chercheurs dans la conception et l’exécution de l’étude. Cela a non seulement augmenté l’efficacité de nos processus d’approbation et de lancement, mais, surtout, a amélioré l’expérience des personnes impliquées dans les tâches d’enrichissement des données.

De plus amples informations sur les pratiques d’enrichissement des données responsables et comment nous les avons intégrées dans nos processus existants sont expliqués dans la récente étude de cas de PAI, Mise en œuvre des pratiques d’enrichissement des données responsables chez un développeur d’IA: l’exemple de DeepMind. Pai fournit également Ressources utiles et matériel de soutien pour les praticiens et les organisations de l’IA cherchant à développer des processus similaires.

Avoir hâte de

Bien que ces meilleures pratiques sous-tendent notre travail, nous ne devrions pas compter sur eux seuls pour nous assurer que nos projets répondent aux normes les plus élevées des participants ou du bien-être des travailleurs et de la sécurité dans la recherche. Chaque projet chez DeepMind est différent, c’est pourquoi nous avons un processus de revue des données humaines dédié qui nous permet de nous engager continuellement avec les équipes de recherche pour identifier et atténuer les risques au cas par cas.

Ce travail vise à servir de ressource pour d’autres organisations intéressées à améliorer leurs pratiques d’approvisionnement en enrichissement des données, et nous espérons que cela conduira à des conversations transversales qui pourraient développer davantage ces directives et ressources pour les équipes et les partenaires. Grâce à cette collaboration, nous espérons également déclencher une discussion plus large sur la façon dont la communauté de l’IA peut continuer à développer des normes de collecte de données responsables et collectivement de meilleures normes de l’industrie.

En savoir plus sur notre Principes de fonctionnement.



Source link

Related post