Reddit empêche les archives Internet de ramper ses données – voici pourquoi

 Reddit empêche les archives Internet de ramper ses données – voici pourquoi


Andriy Onufriyenko / Getty Images

Les principaux plats de ZDNET

  • Les archives Internet ne peuvent désormais ramper que la page d’accueil de Reddit.
  • L’objectif de Reddit est d’empêcher les entreprises d’IA de gratter les données utilisateur de Reddit.
  • Les éditeurs (et autres) poursuivent des sociétés d’IA pour violation du droit d’auteur.

Reddit défend sa vie privée des sociétés d’IA qui adoptent des approches de rond-point pour racler son contenu.

La plateforme de médias sociaux, connue sous le nom de ressource où les utilisateurs peuvent publier de manière anonyme et trouver des informations sur pratiquement n’importe quel sujet, bloquera les archives Internet Wayback Machine de l’indexation de ses données en ligne, selon un lundi rapport du verge. Cette décision est en réponse à la découverte que les entreprises d’IA, incapables de gratter les données de Reddit directement en raison des politiques prohibitives de la plate-forme, ont plutôt récupéré ses données à partir de contenu indexé sur les archives Internet et l’utiliser pour former des modèles.

La machine Wayback ne sera désormais en mesure de gratter les données de la page d’accueil de Reddit, selon le Verge, tandis que l’accès aux profils d’utilisateur, aux commentaires et aux pages de détail sera bloqué.

Lancé en 1996, Internet Archive est un organisme sans but lucratif qui exploite une énorme base de données numérique de contenu Web. L’archive est maintenue en partie par la Wayback Machine, un logiciel de rafraîchissement Web qui rassemble des pages Web et les préserve telles qu’elles sont apparues lorsqu’elles ont été collectées, comme les mouches numériques en ambre. Cela sert de ressource aux chercheurs qui étudient l’évolution de la culture en ligne et des preuves médico-légales numériques pour l’application de la loi, entre autres utilisations.

Ce que signifie le mouvement de Reddit

Reddit a précédemment signalé des préoccupations liées au grattage de son contenu avec les archives Internet, selon The Verge. L’organisme à but non lucratif aurait également été informé avant que les restrictions de rafraîchissement Web ne commencent à entrer en vigueur hier.

Les archives Internet n’ont pas encore fait de déclaration officielle sur la façon dont il prévoit de répondre aux nouvelles restrictions de Reddit, et au moment de la rédaction du moment de la rédaction, il n’a pas répondu à la demande de commentaires de ZDNET. Le directeur de Wayback Machine, Mark Graham, a cependant déclaré à plusieurs publications que les archives Internet « continueront à avoir des discussions en cours à ce sujet » avec Reddit.

Tension croissante

La décision rapportée de Reddit de bloquer Wayback Machine de gratter la majorité de son contenu arrive au cours d’un moment de tension de montage entre les sociétés de l’IA et les éditeurs numériques, bien que Reddit soit la première entreprise technologique à se lancer dans le débat. L’entreprise entendus anthropique en juin après avoir découvert que la société d’IA était en train de gratter illégalement ses données, mais elle a également signé des accords de licence avec Google et Openai.

(Divulgation: Ziff Davis, la société mère de ZDNET, a déposé une plainte en avril 2025 contre Openai, alléguant qu’elle a enfreint Ziff Davis Copyrights dans la formation et l’exploitation de ses systèmes d’IA.)

Les développeurs d’IA ont besoin d’accès aux mèches d’informations gargantuesques pour former des modèles d’IA génératifs, qui sont conçus pour identifier et reproduire des modèles mathématiques subtils glanés à partir de ces ensembles de données de formation.

Beaucoup de ces entreprises ont gratté les données de formation des sites Web accessibles au public, notamment des sites de médias sociaux et des médias, revendiquant l’immunité légale dans le cadre d’un concept connu dans la loi sur le droit d’auteur comme usage équitable. (Les tribunaux démêlent toujours la légitimité de cet argument et le feront probablement pendant un certain temps.)

De nombreuses organisations dont le contenu a été abondamment grattée – ainsi qu’une cohorte d’auteurs et d’autres artistes – ont répondu avec des poursuites.

D’autres, quant à eux, ont signé des accords de licence de contenu avec Openai, Anthropic et Google, consentant à l’utilisation des données de leurs organisations en échange d’une visibilité accrue dans les réponses générées par les chatbots ou d’autres avantages.





Source link

Related post