Ne laissez pas le battage médiatique sur les agents de l’IA de devandre la réalité
Commençons par le terme «agent» lui-même. À l’heure actuelle, il est giflé sur tout, des scripts simples aux flux de travail sophistiqués de l’IA. Il n’y a pas de définition partagée, ce qui laisse beaucoup de place aux entreprises pour commercialiser l’automatisation de base comme quelque chose de beaucoup plus avancé. Ce genre de «lavage d’agent» ne confonde pas seulement les clients; Il invite la déception. Nous n’avons pas nécessairement besoin d’une norme rigide, mais nous avons besoin d’attentes plus claires sur ce que ces systèmes sont censés faire, à quel point ils fonctionnent de manière autonome et à quel point ils fonctionnent de manière fiable.
Et la fiabilité est le prochain grand défi. La plupart des agents d’aujourd’hui sont alimentés par de grands modèles de langage (LLMS), qui génèrent des réponses probabilistes. Ces systèmes sont puissants, mais ils sont également imprévisibles. Ils peuvent inventer des choses, sortir de la piste ou échouer de manière subtile, surtout lorsqu’ils sont invités à effectuer des tâches en plusieurs étapes, à tirer des outils externes et à des réponses LLM de chaînage. Un exemple récent: les utilisateurs de Cursor, un assistant de programmation AI populaire, ont été informés par un agent d’assistance automatisé qu’ils ne pouvaient pas utiliser le logiciel sur plus d’un appareil. Il y avait des plaintes généralisées et des rapports sur les utilisateurs annulant leurs abonnements. Mais ça s’est avéré La politique n’existait pas. L’IA l’avait inventé.
Dans les paramètres d’entreprise, ce type d’erreur pourrait créer d’immenses dommages. Nous devons arrêter de traiter les LLM comme des produits autonomes et commencer à construire des systèmes complets autour d’eux – les systèmes qui expliquent l’incertitude, le contrôle des sorties, la gestion des coûts et la couche de garde-corps pour la sécurité et la précision. Ces mesures peuvent aider à garantir que la sortie adhère aux exigences exprimées par l’utilisateur, obéit aux politiques de l’entreprise concernant l’accès à l’information, respecte les problèmes de confidentialité, etc. Certaines entreprises, y compris AI21 (que j’ai cofondées et qui ont reçu un financement de Google), se déplacent déjà dans cette direction, enroulant des modèles de langage dans des architectures plus délibérées et structurées. Notre dernier lancement, Maestro, est conçu pour la fiabilité de l’entreprise, combinant le LLMS avec les données de l’entreprise, les informations publiques et d’autres outils pour garantir des résultats fiables.
Pourtant, même l’agent le plus intelligent ne sera pas utile dans le vide. Pour que le modèle d’agent fonctionne, différents agents doivent coopérer (réserver votre voyage, vérifier la météo, soumettre votre rapport de dépenses) sans supervision humaine constante. C’est là que le protocole A2A de Google entre en jeu. C’est censé être un langage universel qui permet aux agents de partager ce qu’ils peuvent faire et de diviser les tâches. En principe, c’est une excellente idée.
Dans la pratique, A2A est toujours court. Il définit comment les agents se parlent, mais pas ce qu’ils signifient réellement. Si un agent dit qu’il peut fournir des «conditions de vent», une autre doit deviner si cela est utile pour évaluer les conditions météorologiques sur un itinéraire de vol. Sans vocabulaire ou contexte partagé, la coordination devient cassante. Nous avons déjà vu ce problème dans l’informatique distribuée. Le résoudre à grande échelle est loin d’être trivial.
