Un ensemble de données de formation d’IA majeur contient des millions d’exemples de données personnelles

L’essentiel, explique William Agnew, boursier postdoctoral en éthique de l’IA à l’Université Carnegie Mellon et l’un des co-auteurs, est que «tout ce que vous mettez en ligne peut (être) et a probablement été gratté».
Les chercheurs ont trouvé des milliers de Des cas de documents d’identité validés – y compris des images de cartes de crédit, de permis de conduire, de passeports et de certificats de naissance – ainsi que plus de 800 documents de demande d’emploi validés (y compris des curriculum vitae et des lettres de motivation), qui ont été confirmées par LinkedIn et d’autres recherches Web comme étant associées à de vraies personnes. (Dans de nombreux autres cas, les chercheurs n’ont pas eu le temps de valider les documents ou n’ont pas été en mesure de problèmes comme la clarté de l’image.)
Un certain nombre de curriculum vitae ont révélé des informations sensibles, y compris le statut d’invalidité, les résultats des vérifications des antécédents, les dates de naissance et les lieux de naissance des personnes à charge et la race. Lorsque les curriculum vitae étaient liés aux personnes aux présences en ligne, les chercheurs ont également trouvé des coordonnées, des identifiants gouvernementaux, des informations sociodémographiques, des photographies en face, des adresses domestiques et les coordonnées d’autres personnes (comme les références).
Gracieuseté des chercheurs
Lorsqu’il a été publié en 2023, Datacomp CommonPool, avec ses 12,8 milliards d’échantillons de données, était le plus grand ensemble de données existant de paires de texte d’image accessibles au public, qui sont souvent utilisées pour former des modèles génératifs de texte à l’image. Alors que ses conservateurs ont déclaré que CommonPool était destiné à la recherche universitaire, sa licence n’interdit pas également l’utilisation commerciale.
CommonPool a été créé en tant que suivi de l’ensemble de données LAION-5B, qui a été utilisé pour former des modèles, notamment la diffusion stable et le milieu. Il s’appuie sur la même source de données: le grattage Web effectué par la rampe commune à but non lucratif entre 2014 et 2022.
Bien que les modèles commerciaux ne divulguent souvent pas les ensembles de données sur lesquels ils sont formés, les sources de données partagées de Datacomp CommonPool et LAION-5B signifient que les ensembles de données sont similaires, et que les mêmes informations personnellement identifiables apparaissent probablement dans le laion-5b, ainsi que dans d’autres modèles en aval formés sur les données CommonPool. Les chercheurs de CommonPool n’ont pas répondu aux questions envoyées par e-mail.
Et puisque Datacomp CommonPool a été téléchargé plus de 2 millions de fois au cours des deux dernières années, il est probable que «il y a (y a) de nombreux modèles en aval qui sont tous formés sur cet ensemble de données exact», explique Rachel Hong, doctorante en informatique à l’Université de Washington et auteur principal du journal. Ceux-ci reproduiraient des risques de confidentialité similaires.
Les bonnes intentions ne suffisent pas
«Vous pouvez supposer que toutes les données à grande échelle à narration contiennent toujours du contenu qui ne devrait pas être là», explique Abeba Birhane, scientifique cognitif et éthicien technologique qui dirige le laboratoire de responsabilité AI de Trinity College, qu’il s’agisse d’informations personnellement identifiables (PII),, Imagerie d’abus sexuels pour enfantsou discours de haine (que Birhane recherche dans le laion-5b a trouvé).