Anthropic râpé des millions de livres physiques pour former son AI

 Anthropic râpé des millions de livres physiques pour former son AI


Aujourd’hui, dans les métaphores sur le nez de schash sur le nez pour la destruction rapace des arts de l’industrie de l’IA: exactement comment anthropic a rassemblé les données dont il avait besoin pour former son modèle Claude AI.

Comme ARS TECHNICA rapportsla startup soutenue par Google ne se contente pas de berger de millions de livres protégés par des droits d’auteur, une pratique qui est éthique et légalement lourde. Non – il a coupé les pages du livre de leurs reliures, les a scannées pour fabriquer des fichiers numériques, puis a jeté toutes ces millions de pages des textes d’origine. Pour dire que l’IA a « dévoré » ces livres ne seraient pas simplement un langage coloré.

Cette pratique a été révélée dans un Déclaration des droits d’auteur Lundi, qui s’est avéré être une victoire majeure pour l’anthropique et l’industrie technologique vorace des données dans son ensemble. Le juge présidant l’affaire, le juge de district américain William Alsup, a constaté qu’Anthropic peut former ses modèles de grande langue sur des livres qu’il a achetés légalement, même sans l’autorisation explicite des auteurs.

C’est une décision qui doit, en partie, à la méthode d’Anthropic de numérisation de livre destructrice – que c’est loin de la première entreprise à utiliser, selon ARSmais est remarquable pour son échelle massive. En somme, il profite d’un concept juridique connu sous le nom de doctrine de première vente, qui permet à un acheteur de faire ce qu’il veut avec son achat sans que le titulaire du droit d’auteur n’intervient. Ce La règle est ce qui permet au marché secondaire d’exister – sinon l’éditeur d’un livre, par exemple, pourrait exiger une réduction ou empêcher la revend de leurs livres.

Laissez les sociétés d’IA, cependant, pour l’utiliser de mauvaise foi. Selon le dépôt judiciaireAnthropic a embauché l’ancien chef des partenariats pour le projet de balayage de livres de Google, Tom Turvey, en février 2024 pour obtenir « tous les livres du monde » sans rencontrer « Legal / Practice / Business Slog », comme l’a décrit Dario Amodei, PDG d’Anthropic, selon le dossier. Turvey est venu avec une solution de contournement. En achetant des livres physiques, Anthropic serait protégé par la première doctrine de vente et n’aurait plus à obtenir de licence. Le déshabillage des pages a permis un balayage moins cher et plus facile. Étant donné qu’Anthropic n’a utilisé que les livres numérisés en interne et a jeté les copies par la suite, le juge a constaté que ce processus s’apparente à « l’espace de conservation (ing) »,  » ARS noté, ce qui signifie que c’était transformateur. Ergo, c’est légalement OK.

C’est une solution de contournement spécieuse et une hypocrite flagrante, bien sûr. Quand Anthropic s’est mis en marche pour la première fois, la startup a suivi la voie encore plus peu scrupuleuse de Télécharger des millions de livres piratés Pour nourrir son AI. Meta a fait ça avec des millions de livres piratésaussi, pour lequel il obtient actuellement poursuivi par un groupe d’auteurs.

C’est aussi paresseux et insouciant. Comme ARS Remarques, de nombreux archivistes ont été les pionniers de diverses approches pour scanner des livres en masse sans avoir à détruire ou à modifier les originaux, y compris les archives Internet et les propres livres Google de Google (qui il n’y a pas si longtemps, il y a également l’objet de lui-même Majeure Bataille du droit d’auteur.)

Mais tout pour économiser quelques dollars – et pour l’obtenir des données de formation trop précieuses. En effet, l’industrie de l’IA est à court de sources de nourriture de haute qualité pour nourrir son IA – notamment parce qu’elle a passé de court Crapping où il mange – Donc, visser certains auteurs et envoyer des livres au Shredder est, pour Big Tech, un petit prix à payer.

Plus sur l’IA: Microsoft a un problème incroyablement embarrassant avec son AI



Source link

Related post