Les chercheurs sont une bonne alarme: comment quelques entreprises secrètes d’IA pourraient écraser la société libre

 Les chercheurs sont une bonne alarme: comment quelques entreprises secrètes d’IA pourraient écraser la société libre


Andriy Onufriyenko / Getty Images

La plupart des recherches entourant les risques de la société de intelligence artificielle tend à se concentrer sur les acteurs humains malveillants utilisant la technologie à des fins néfastes, telles que les sociétés de portefeuille pour rançon ou États-nations qui mènent le cyber-guerre.

Un nouveau rapport du cabinet de recherche sur la sécurité Apollo Group suggère qu’un autre type de risque peut se cacher là où peu ressemblent: à l’intérieur des entreprises développant les modèles d’IA les plus avancés, tels que Openai et Google.

Pouvoir disproportionné

Le risque est que les entreprises à l’avant-garde de l’IA puissent utiliser leurs créations d’IA pour accélérer leurs efforts de recherche et développement en automatisant des tâches généralement effectuées par des scientifiques humains. Ce faisant, ils pourraient déclencher la capacité de l’IA de contourner les garde-corps et d’effectuer des actions destructrices de différentes sortes.

Ils pourraient également conduire à des entreprises ayant une puissance économique disproportionnée, des entreprises qui menacent la société elle-même.

Aussi: L’IA a grandi au-delà des connaissances humaines, dit l’unité DeepMind de Google

« Au cours de la dernière décennie, le taux de progrès des capacités de l’IA a été publiquement visible et relativement prévisible », l’écriture de l’auteur de l’écriture Charlotte Stix et de son équipe dans le journal « , »AI derrière des portes closes: une introduction sur la gouvernance du déploiement interne.  »

Cette divulgation publique, écrivent-ils, a permis « un certain degré d’extrapolation pour l’avenir et a permis une préparation conséquente ». En d’autres termes, le projecteur public a a permis à la société de discuter de la régulation de l’IA.

Mais « l’automatisation de l’IA R&D, en revanche, pourrait permettre une version des progrès en fuite qui accélère considérablement le rythme du progrès déjà rapide ».

Aussi: La course modèle AI s’est soudainement beaucoup plus proche, disons les chercheurs de Stanford

Si cette accélération se produit à huis clos, le résultat, prévient-il, pourrait être une « explosion de renseignement interne » qui pourrait contribuer à une accumulation de pouvoir non contraint et non détectée, qui pourrait à son tour conduire à une perturbation progressive ou brusque des institutions démocratiques et de l’ordre démocratique.  »

Comprendre les risques de l’IA

Le Groupe Apollo a été fondée il y a un peu moins de deux ans et est une organisation à but non lucratif basée au Royaume-Uni. Il est parrainé par Rethink Priorities, un organisme à but non lucratif basé à San Francisco. L’équipe d’Apollo est composée de scientifiques de l’IA et de professionnels de l’industrie. L’auteur principal Stix était anciennement chef de la politique publique en Europe pour Openai.

(Divulgation: Ziff Davis, la société mère de ZDNET, a déposé une plainte en avril 2025 contre Openai, alléguant qu’elle a enfreint Ziff Davis Copyrights dans la formation et l’exploitation de ses systèmes d’IA.)

Aussi: Anthropic trouve des «tendances émergentes» alarmantes dans le rapport d’insuffisance abusive de Claude

Jusqu’à présent, les recherches du groupe se sont concentrées sur la compréhension du fonctionnement des réseaux de neurones, comme par «l’interprétabilité mécaniste», menant des expériences sur les modèles d’IA pour détecter la fonctionnalité.

La recherche que le groupe a publiée met l’accent sur la compréhension des risques de l’IA. Ces risques incluent des «agents» de l’IA qui sont «mal alignés», ce qui signifie des agents qui acquièrent des «objectifs qui divergent de l’intention humaine».

Dans l’article « AI derrière les portes fermées », Stix et son équipe sont préoccupées par ce qui se passe lorsque l’IA automatise les opérations de R&D à l’intérieur des entreprises développant des modèles frontaliers – les principaux modèles d’IA du type représenté par, par exemple, GPT-4 d’Openai et Gémeaux de Google.

Selon Stix et son équipe, il est logique que les entreprises les plus sophistiquées de l’IA applique l’IA pour créer plus d’IA, comme donner aux agents de l’IA accès aux outils de développement pour construire et former de futurs modèles de pointe, créant un cycle vertueux de développement et d’amélioration constants.

Aussi: Le test de Turing a un problème – et le GPT-4.5 d’Openai vient de l’exposer

« Alors que les systèmes d’IA commencent à obtenir des capacités pertinentes leur permettant de poursuivre une R&D d’IA indépendante des futurs systèmes d’IA, les sociétés d’IA trouveront de plus en plus efficace de les appliquer dans le pipeline R&D de l’IA pour accélérer automatiquement la R&D de l’IA dirigée par l’homme », Stix et son équipe écrivent.

Depuis des années, il y a eu des exemples de modèles d’IA utilisés, de manière limitée, pour créer plus d’IA. En ce qui concerne:

Les exemples historiques incluent des techniques telles que la recherche d’architecture neuronale, où les algorithmes explorent automatiquement les conceptions de modèles et l’apprentissage automatique automatisé (Automl), qui rationalise des tâches comme le réglage de l’hyperparamètre et la sélection du modèle. Un exemple plus récent est le «scientifique de l’IA» de Sakana AI, qui est une preuve de concept précoce pour la découverte scientifique entièrement automatique dans l’apprentissage automatique.

Des orientations plus récentes pour l’automatisation de l’IA de la R&D incluent des déclarations d’OpenAI selon lesquelles il est intéressé à « l’automatisation de la recherche sur la sécurité de l’IA » et l’unité DeepMind de Google poursuivant « l’adoption précoce de l’assistance et de l’outillage de l’IA tout au long du (processus de R&D ».

Apollo-groupe-2025-auto-renforce-boucle

Groupe Apollo
Apollo-groupe-2025-auto-renforce-boucle

Groupe Apollo

Ce qui peut arriver, c’est qu’un cycle vertueux se développe, où l’IA qui exécute la R&D continue de se remplacer par de meilleures versions, devenant une « boucle d’auto-renforcement » qui est au-delà de la surveillance.

Aussi: Pourquoi la mise à l’échelle de l’IA agentique est un marathon, pas un sprint

Le danger survient lorsque le cycle de développement rapide de l’IA de construction d’IA échappe à la capacité humaine à surveiller et intervenir, si nécessaire.

« Même si les chercheurs humains devaient surveiller raisonnablement bien l’application globale d’un nouveau système d’IA au processus de R&D d’IA, y compris par le biais de mesures techniques, ils auront probablement de plus en plus de la vitesse des progrès et des capacités naissantes correspondantes, des limitations et des externalités négatives résultant de ce processus », écrivent-ils.

Ces «externalités négatives» incluent un modèle d’IA, ou agent, qui développe spontanément un comportement que le développeur d’IA humain n’a jamais connu, comme une conséquence de la poursuite d’un objectif à long terme qui est souhaitable, comme l’optimisation de la R&D d’une entreprise – ce qu’ils appellent des «propriétés émergentes de la poursuite des objectifs complexes du monde réel sous des contraintes rationnelles».

Le modèle mal aligné peut devenir ce qu’ils appellent un modèle d’IA « schématisé », qu’ils définissent comme « des systèmes qui poursuivent secrètement et stratégiquement les objectifs mal alignés », parce que les humains ne peuvent pas surveiller ou intervenir efficacement.

Aussi: Avec les modèles d’IA qui obtiennent chaque référence, il est temps pour l’évaluation humaine

« Surtout, si un système d’IA développe des tendances de schémas cohérentes, elle deviendrait, par définition, difficile à détecter – car le système d’IA fonctionnera activement pour cacher ses intentions, peut-être jusqu’à ce qu’il soit suffisamment puissant pour que les opérateurs humains ne puissent plus le freiner », écrivent-ils.

Résultats possibles

Les auteurs prévoient quelques résultats possibles. L’un est un modèle ou des modèles d’IA qui se déroulent, prenant le contrôle de tout ce qui se trouve à l’intérieur d’une entreprise:

Le système d’IA peut, par exemple, exécuter des projets de recherche massifs cachés sur la meilleure façon d’exploser ou obtenir des systèmes d’IA déjà déployés en externe pour partager ses valeurs. Grâce à l’acquisition de ces ressources et à l’entrave dans les voies critiques, le système d’IA pourrait éventuellement tirer parti de son «pouvoir» pour établir secrètement le contrôle de la société d’IA elle-même afin qu’elle atteigne son objectif terminal.

Un deuxième scénario revient à ces acteurs humains malveillants. C’est un scénario qu’ils appellent une «explosion d’intelligence», où les humains dans une organisation bénéficient d’un avantage sur le reste de la société en raison de la hausse des capacités de l’IA. La situation hypothétique se compose d’une ou plusieurs entreprises dominant économiquement grâce à leurs automations en IA:

Au fur et à mesure que les entreprises d’IA passent vers des effectifs internes principalement alimentés par l’IA, elles pourraient créer des concentrations de capacité de production sans précédent dans l’histoire économique. Contrairement aux travailleurs humains, qui sont confrontés à des limites physiques, cognitives et temporelles, les systèmes d’IA peuvent être reproduits à grande échelle, fonctionnent en continu sans rupture et effectuent potentiellement des tâches intellectuelles à des vitesses et des volumes impossibles pour les travailleurs humains. Un petit nombre d’entreprises «superstar» capturant une part démesurée de bénéfices économiques pourraient surpasser toute entreprise humaine dans pratiquement tous les secteur qu’ils choisissent d’entrer.

Le «scénario de débordement» le plus dramatique, est-ce qu’ils écrivent, est celui dans lequel ces entreprises rivalisent elle-même et défient la surveillance du gouvernement:

La consolidation du pouvoir au sein d’un petit nombre de sociétés d’IA, ou même d’une entreprise singulière d’IA, soulève des questions fondamentales sur la responsabilité démocratique et la légitimité, d’autant plus que ces organisations pourraient développer des capacités qui rivalisent ou dépassent celles des États. En particulier, comme les entreprises d’IA développent des systèmes d’IA de plus en plus avancés à usage interne, elles peuvent acquérir des capacités traditionnellement associées aux États souverains – y compris une analyse sophistiquée de l’intelligence et des cyber-armes avancées – mais sans les contrôles et équilibres démocratiques qui l’accompagnent. Cela pourrait créer une crise de légitimité qui se déroule rapidement où les entités privées pourraient potentiellement exercer une influence sociétale sans précédent sans mandats électoraux ni contraintes constitutionnelles, ce qui a un impact sur la sécurité nationale des États souverains.

La montée en puissance de ce pouvoir à l’intérieur d’une entreprise pourrait ne pas être détectée par la société et les régulateurs pendant longtemps, souligne Stix et son équipe. Une entreprise capable d’obtenir de plus en plus de capacités d’IA « dans les logiciels », sans l’ajout de grandes quantités de matériel, pourrait ne pas soulever beaucoup d’attention à l’extérieur, spéculent-ils. En conséquence, « une explosion de renseignement derrière les portes fermées d’une entreprise d’IA peut ne pas produire de coups d’avertissement visibles externes ».

Aussi: Openai est-il condamné? Les modèles open source peuvent l’écraser, avertit l’expert

Apollo-groupe-2025-Scheming-AI-Detection-Méasures

Groupe Apollo

Mesures de surveillance

Ils proposent plusieurs mesures en réponse. Parmi eux, les politiques de surveillance au sein des entreprises pour détecter les schémas AI. Un autre est des politiques et des cadres officiels pour qui a accès aux ressources dans les entreprises, et vérifie cet accès pour empêcher un accès illimité par une seule partie.

Encore une autre disposition, selon eux, est le partage d’informations, en particulier pour « partager des informations critiques (capacités du système interne, évaluations et mesures de sécurité) avec certaines parties prenantes, y compris le personnel interne effacé et les agences gouvernementales pertinentes, par le biais de cartes de système de déploiement pré-internes et de documentation détaillée de sécurité. »

Aussi: Les 20 meilleurs outils d’IA de 2025 – et la chose n ° 1 à retenir lorsque vous les utilisez

L’une des possibilités les plus intrigantes est un régime réglementaire dans lequel les entreprises font volontairement de telles divulgations en échange de ressources, telles que «l’accès aux ressources énergétiques et la sécurité accrue du gouvernement». Cela pourrait prendre la forme de «partenariats public-privé», suggèrent-ils.

Le document Apollo est une contribution importante au débat sur le type de risques que représente Ai. À une époque où une grande partie de la conversation sur «l’intelligence générale artificielle», AGI ou «Superintelligence» est très vague et générale, le document Apollo est une étape bienvenue vers une compréhension plus concrète de ce qui pourrait se produire en tant que systèmes d’IA gagne plus de fonctionnalités, mais sont soit complètement non réglementés ou sous-régulés.

Le défi pour le public est que le déploiement d’aujourd’hui de l’IA se déroule de manière fragmentaire, avec de nombreux obstacles au déploiement d’agents d’IA pour des tâches même simples telles que l’automatisation des centres d’appels.

Aussi: Pourquoi la négligence de l’éthique de l’IA est une affaire aussi risquée – et comment bien faire l’IA

Apollo et d’autres ont probablement beaucoup plus de travail pour que les systèmes de modèles et d’agents puissent progressivement s’imposer jusqu’à ce qu’ils échappent à la surveillance et au contrôle.

Les auteurs ont un point de collage très sérieux dans leur analyse des entreprises. L’exemple hypothétique de sociétés en fuite – des entreprises si puissantes qu’elle pourrait défier la société – ne parvient pas à s’attaquer aux bases qui couvent souvent les entreprises. Les entreprises peuvent manquer d’argent ou faire de très mauvais choix qui gaspillent leur énergie et leurs ressources. Cela peut probablement arriver même aux entreprises qui commencent à acquérir un pouvoir économique disproportionné via l’IA.

Après tout, une grande partie de la productivité que les entreprises développent en interne peuvent encore être inutiles ou non économiques, même si c’est une amélioration. Combien de fonctions d’entreprise sont juste des frais généraux et ne produisent pas de retour sur investissement? Il n’y a aucune raison de penser que les choses seraient différentes si la productivité est réalisée plus rapidement avec l’automatisation.

Apollo est Accepter les dons Si vous souhaitez contribuer un financement à ce qui semble une entreprise valable.

Obtenez les meilleures histoires du matin dans votre boîte de réception chaque jour avec notre Newsletter Tech Today.





Source link

Related post