ELEUTHER AI publie une collection 8 To de données de formation sous licence et ouvertes – Computerworld
L’organisation de recherche sur l’IA Eleuther AI a lancé une base de données de texte massive, Pile commune v0.1qui peut être utilisé pour former des systèmes d’IA, Selon TechCrunch. La base de données 8TB se compose exclusivement de textes sous licence publique ou de textes classés comme domaine public.
La pile commune V0.1 a été développée sur deux ans en collaboration avec Poolside, Hugging Face, la US Library of Congress et l’Université de Toronto, entre autres.
La collecte de données a été publiée après que des préoccupations se sont présentées concernant plusieurs sociétés génératrices de l’IA (Genai) utilisant du matériel protégé par le droit d’auteur pour former leurs modèles sans l’autorisation des titulaires de droits d’auteur. Eleuther Ai était également à l’origine de la collection, la pile, qui est devenue un point central du débat; Il veut maintenant montrer avec une pile commune V0.1 que la formation est possible sans matériel protégé par le droit d’auteur.
