Les Crawlers de l’IA contre les défenses Web: CloudFlare-Perplexity Fight révèle des fissures dans Internet Trust

Une guerre publique des mots a éclaté entre le leader des infrastructures cloud CloudFlare et la société de recherche sur l’IA Perplexity, les deux parties faisant de sérieuses allégations concernant la compétence technique de l’autre dans un différend qui, selon les analystes de l’industrie
La controverse a commencé lorsque CloudFlare a publié un rapport technique cinglant accusant la perplexité de «ramper furtif» – en utilisant des navigateurs Web déguisés pour faufiler les blocs de sites Web et gratter le contenu que les propriétaires de sites voulaient explicitement éloigner de la formation en IA. La perplexité a rapidement riposté, accusant Cloudflare de créer un «coup de publicité» en attribuant mal des millions de demandes Web à des services non liés pour stimuler ses propres efforts de marketing.
Les experts de l’industrie avertissent que l’échange houleux révèle que les outils actuels de détection de bots ne font pas la distinction entre les services d’IA légitimes et les robots problématiques, laissant les entreprises sans stratégies de protection fiables.
Les allégations techniques de Cloudflare
L’enquête de CloudFlare a commencé après que les clients se sont plaints que la perplexité accédait toujours à leur contenu malgré le blocage de ses robots connus via des fichiers robots.txt et des règles de pare-feu. Pour tester cela, CloudFlare a créé de nouveaux domaines, a bloqué tous les robots de l’IA, puis a posé des questions de perplexité sur ces sites.
«Nous avons découvert que la perplexité fournissait toujours des informations détaillées concernant le contenu exact hébergé sur chacun de ces domaines restreints», » CloudFlare rapporté dans un article de blog. «Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher que ces données ne soient récupérables par leurs robots.»
L’entreprise a constaté que lorsque le robot déclaré de perplexité était bloqué, il serait passé à un agent utilisateur générique conçu pour ressembler à Chrome sur macOS. Ce robot furtif présumé a généré 3 à 6 millions de demandes quotidiennes sur des dizaines de milliers de sites Web, tandis que le robot de Crawler déclaré de Perplexity a traité 20 à 25 millions de demandes quotidiennes.
Cloudflare a souligné que ce comportement violait les principes Web de base: «L’Internet tel que nous l’avons connu depuis trois décennies change rapidement, mais une chose reste constante: elle est construite sur la confiance. Il existe des préférences claires que les robots devraient être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, suivre les directives et les préférences du site Web.»
En revanche, lorsque CloudFlare a testé Chatgpt d’Openai avec les mêmes domaines bloqués, «Nous avons constaté que le chat-user de ChatGpt a récupéré le fichier des robots et a cessé de ramper lorsqu’il a été interdit. Nous n’avons pas observé de rampes de suivi de tout autre agent utilisateur ou de bots tiers.»
Accusation de la «cascade publicitaire» de la perplexité
La perplexité n’en avait rien. Dans un LinkedIn Post Cela n’a tiré aucun coup de poing, la société a accusé Cloudflare de cibler délibérément son propre client pour un avantage marketing.
La société d’IA a suggéré deux explications possibles du rapport de CloudFlare: «Cloudflare avait besoin d’un moment de publicité intelligent et nous – leur propre client – était un nom utile pour les obtenir un» ou «CloudFlare, fondamentalement mal attribué à 3 à 6 m de requêtes quotidiennes du service de navigateur automatisé de Browserbase de Browserbase.»
Perplexity a affirmé que le trafic contesté provenait en fait de Browserbase, un service de navigateur cloud tiers que Perplexity utilise avec parcimonie, représentant moins de 45 000 de leurs demandes quotidiennes par rapport au Cloudflare 3 à 6 millions attribué à la rampe furtive.
«Cloudflare a été mal attribué à des demandes quotidiennes de 3 à 6 m à partir du service de navigateur automatisé de BrowserBase à la perplexité, une défaillance de base de l’analyse du trafic qui est particulièrement embarrassante pour une entreprise dont l’entreprise principale est de comprendre et de catégoriser le trafic Web», a déclaré Perplexity.
La société a également fait valoir que CloudFlare comprend le fonctionnement des assistants de l’IA modernes: «Lorsque vous posez la perplexité une question qui nécessite des informations actuelles – dites:« Quelles sont les dernières critiques pour ce nouveau restaurant? – L’IA n’a pas déjà ces informations dans une base de données quelque part.
Perplexity a visé directement la compétence de Cloudflare: «Si vous ne pouvez pas dire un assistant numérique utile d’un grattoir malveillant, alors vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime.»
L’analyse d’experts révèle des problèmes plus profonds
Les analystes de l’industrie affirment que le différend expose des vulnérabilités plus larges dans les stratégies de protection de contenu d’entreprise qui vont au-delà de cette seule controverse.
«Certains outils de détection de bots présentent des problèmes de fiabilité importants, notamment des faux positifs élevés et une sensibilité aux tactiques d’évasion, comme en témoignent les performances incohérentes dans la distinction des services légitimes d’IA des robots malveillants», a déclaré Charlie Dai, vice-président et analyste principal chez Forrester.
Sanchit Vir Gogia, analyste en chef et PDG de Greyhound Research, a fait valoir que le différend «signale un point d’inflexion urgent pour les équipes de sécurité d’entreprise: les outils de détection de bots traditionnels – conçus pour les robots de web statique et l’automatisation volumétrique – ne sont plus équipés pour gérer la subtilité des agents alimentés par AI opérant auprès des utilisateurs.»
Le défi technique est nuancé, a expliqué Gogia: «Alors que les assistants avancés de l’IA approchent souvent du contenu en temps réel pour la requête d’un utilisateur – sans stocker ni s’entraîner sur ces données – ils le font en utilisant des cadres d’automatisation comme les marionnettiste ou le dramaturge qui portent une ressemblance frappante aux outils de grattage.
Le chemin vers de nouvelles normes
Ce combat ne concerne pas seulement les détails techniques – il s’agit d’établir des règles pour l’interaction AI-Web. Perplexity a mis en garde contre les conséquences plus larges: «Le résultat est un Internet à deux niveaux où votre accès ne dépend pas de vos besoins, mais de la chance de vos outils choisis.
Les cadres de l’industrie émergent, mais lentement. « Les normes matures sont peu probables avant 2026. Les entreprises pourraient encore devoir s’appuyer sur des contrats personnalisés, des robots.txt et une évolution des précédents juridiques dans l’intervalle », a noté Dai. Pendant ce temps, certaines entreprises développent des solutions: OpenAI pilote la vérification de l’identité via Web Bot Auth, permettant aux sites Web de confirmer cryptographiquement les demandes d’agent.
Gogia a mis en garde contre des implications plus larges: «Le risque est un réseau balkanisé, où seuls les fournisseurs jugés se sont conformes par les principaux fournisseurs d’infrastructures sont autorisés à accéder, favorisant ainsi les titulaires et congelant l’innovation ouverte.»