Le site cool montre exactement quels livres téléchargés des Minions de Zuckerberg pour former Meta’s Ai

Pour tout le changement révolutionnaire Les promesses de l’intelligence artificielle, il fait également de hautes demandes. Pour commencer, l’IA a une affamée extraordinairement en puissance. Générer toute l’électricité que l’IA disposition des centres de données Consume prend des charges forestières d’énergie, sans parler du matériel et de l’infrastructure de refroidissement. Ce truc coûte beaucoup, faire de l’IA un ÉNORME PIT. Cela a eu un grand effet sur notre économie, car la plus petite partie du battage médiatique de l’IA peut envoyer Énormes ondes de choc à travers Wall Street et au-delà.
Mais l’IA est également gourmand de manière moins visible: à savoir pour vos données.
Les modèles de grande langue (LLMS) qui sous-tendent des produits comme le chatppt d’Openai, par exemple, doivent dévorer d’énormes ensembles de données de mots écrits pour affiner un algorithme pour suivre les règles du langage. Ils ont tellement faim de données brutes, en fait, que le matériau original pour que ces algorithmes se gobent deviennent difficiles à trouver.
« Nous manquons littéralement de texte dans l’univers pour former ces systèmes », a déclaré le chercheur en informatique Stuart Russell De retour en 2023. Maintenant en 2025, le puits est presque un séchage.
Meta, la société mère de Facebook et Instagram, a par inadvertance retiré le rideau sur ce à quoi il ressemble pour ingérer toutes ces données.
En janvier, méta a perdu un énorme combat avec un groupe d’auteurs qui ont poursuivi l’entreprise pour avoir utilisé leurs livres pour former son IA. L’affaire a révélé le fait que Meta avait illégalement téléchargé une infâme bibliothèque de pirates, Libgen, pour se procurer des millions de textes légalement protégés. Ces livres ont ensuite été nourris à Meta’s LLM, Llama, après que les ingénieurs logiciels ont obtenu l’approbation de Le Zuck lui-même. En d’autres termes, l’une des plus grandes entreprises au monde n’a même pas pris la peine de payer pour une seule copie de chaque livre qu’il utilisait pour construire son IA.
Cette semaine, L’Atlantique compilé un moteur de recherche Cela pourrait parcourir les fichiers Libgen et découvrir quels livres, exactement, ont été grattés par Meta. La portée des méta- opération de récolte de données est extensifcouvrant plus de 7,5 millions de livres et quelque 81 millions de documents académiques, en plus des travaux publiés par des musées, des architectes et des artistes.
Le costume a été dirigé par des auteurs comme Ta-Nehisi Coates et Sarah Silverman, qui avait une idée du piratage de données de Meta grâce à un précédent 2023. Mais le nouvel outil de recherche permet maintenant aux écrivains et aux universitaires de voir quel travail, exactement, a été piraté pour former le LLM à but lucratif de Meta – ce qui a entraîné de nombreux discours concernant les lois sur le droit d’auteur, l’éthique de l’IA et le piratage des médias.
« Mon livre est ici – et, bon! Libgen rend les textes à la disposition des personnes qui n’auraient pas autrement accès, » dit Câblé écrivain Justin Ling. « Le problème, OMI, n’est pas libgen qui rend le contenu disponible gratuitement: c’est la méta-vol de ce matériel à but lucratif. »
Il reste à voir si Meta devra faire de ces écrivains, car une décision n’est pas prévue avant l’été. Quoi qu’il en soit, les dégâts sont déjà faits – Llama se déchaîne et gratuitement sur des plates-formes comme Facebook, Instagram et WhatsApp – un moment révélateur pour l’avenir des données dans un monde dominé par Big Tech.
En savoir plus sur la loi sur les droits d’auteur de l’IA: Tous les documents générés par l’IA doivent être étiquetés en ligne, annonce la Chine