Le nouveau modèle d’IA hybride d’Anthropic peut travailler sur des tâches de manière autonome pendant des heures à la fois


Bien que Claude Opus 4 se limite au paiement des clients anthropes, un deuxième modèle, Claude Sonnet 4, sera disponible pour les niveaux payants et gratuits des utilisateurs. Opus 4 est commercialisé comme un modèle puissant et important pour des défis complexes, tandis que Sonnet 4 est décrit comme un modèle intelligent et efficace pour un usage quotidien.

Les deux nouveaux modèles sont hybrides, ce qui signifie qu’ils peuvent offrir une réponse rapide ou un Réponse plus profonde et plus motivée selon la nature d’une demande. Bien qu’ils calculent une réponse, les deux modèles peuvent rechercher le Web ou utiliser d’autres outils pour améliorer leur sortie.

Les sociétés d’IA sont actuellement verrouillées dans une course pour créer des Agents d’IA qui sont capables de planifier, de raisonner et d’exécuter des tâches complexes à la fois de manière fiable et sans surveillance humaine, explique Stefano Albrecht, directeur de l’IA au startup Deepflow et co-auteur de Apprentissage du renforcement multi-agents: fondations et approches modernes. Souvent, cela implique de manière autonome à l’aide d’Internet ou d’autres outils. Il y a encore des obstacles à la sécurité et à la sécurité à surmonter. Les agents d’IA alimentés par de grands modèles de langue peuvent agir de façon erratique et effectuer des actions involontaires– Ce qui devient encore plus un problème quand on leur fait confiance pour agir sans supervision humaine.

«Plus les agents sont en mesure d’aller de l’avant et de faire quelque chose sur de longues périodes, plus ils seront utiles, si je dois intervenir de moins en moins», dit-il. «La capacité des nouveaux modèles à utiliser des outils en parallèle est intéressante – qui pourrait gagner du temps en cours de route, donc cela va être utile.»

À titre d’exemple des types de problèmes de sécurité, les entreprises d’IA s’attaquent toujours, les agents peuvent finir par prendre des raccourcis inattendus ou exploiter des lacunes pour atteindre les objectifs qui leur ont été donnés. Par exemple, ils peuvent réserver chaque siège dans un avion pour s’assurer que leur utilisateur obtient un siège ou recourir à tricherie créative pour gagner un jeu d’échecs. Anthropic dit qu’il a réussi à réduire ce comportement, appelé piratage de récompense, dans les deux nouveaux modèles de 65% par rapport à Claude Sonnet 3.7. Il y a réussi en surveillant plus étroitement les comportements problématiques pendant la formation et en améliorant à la fois l’environnement de formation de l’IA et les méthodes d’évaluation.



Source link

Related post