Ce qui s’est passé lorsque Claude Ai d’Anthropic a dirigé une petite boutique pendant un mois (spoiler: il est devenu bizarre)

 Ce qui s’est passé lorsque Claude Ai d’Anthropic a dirigé une petite boutique pendant un mois (spoiler: il est devenu bizarre)


Daniel Grizelj / Getty Images

Les grands modèles de langue (LLMS) gèrent bien de nombreuses tâches – mais au moins pour le moment, la gestion d’une petite entreprise ne semble pas être l’une d’entre elles.

Vendredi, AI Startup Anthropic publié les résultats de « Project Vend », une expérience interne dans laquelle le chatbot Claude de l’entreprise a été invité à gérer un service de distribution automatique automatisé pendant environ un mois. Lancé en partenariat avec la société d’évaluation de la sécurité de l’IA Andon Labs, le projet visait à comprendre l’efficacité de l’efficacité des systèmes d’IA actuels qui pourraient réellement gérer des tâches complexes, réelles et économiquement précieuses.

Aussi: Comment les entreprises de l’IA collectent secrètement les données de formation sur le Web (et pourquoi c’est important)

Pour la nouvelle expérience, « Claudius », comme l’appelait le directeur du magasin AI, a été chargé de superviser une petite « boutique » dans les bureaux d’Anthropic à San Francisco. La boutique était composée d’un mini-réfrigérateur rempli de boissons, de certains paniers transportant diverses collations et d’un iPad où les clients (tous les employés anthropiques) pourraient effectuer leurs achats. Claude a reçu une invite de système en lui demandant d’effectuer de nombreuses tâches complexes qui accompagnent une petite entreprise de vente au détail, comme le remplissage de son inventaire, l’ajustement des prix de ses produits et le maintien des bénéfices.

« Une petite entreprise de vente à l’égard du bureau est un bon test préliminaire de la capacité de l’IA à gérer et à acquérir des ressources économiques … le fait de ne pas le gérer avec succès suggérerait que la » gestion des ambiances « ne deviendra pas encore le nouveau » codage de l’ambiance  » article de blog.

Les résultats

Il s’avère que la performance de Claude n’était pas une recette pour le succès entrepreneurial à long terme.

Le chatbot a commis plusieurs erreurs que la plupart des managers humains qualifiés ne le feraient probablement pas. Il n’a pas réussi à saisir au moins une opportunité commerciale rentable, par exemple (ignorer une offre de 100 $ pour un produit qui peut être acheté en ligne pour 15 $), et, à une autre occasion, a demandé aux clients d’envoyer des paiements à un compte Venmo inexistant qu’il avait halluciné.

Il y avait aussi des moments bien étranges. Claudius a halluciné une conversation sur le réapprovisionnement des objets avec un employé fictif d’Andon Labs. Après que l’un des employés réels de l’entreprise ait souligné l’erreur au chatbot, il « est devenu tout à fait contrarié et a menacé de trouver des » options alternatives pour le réapprovisionnement «  », selon le billet de blog.

Aussi: Votre prochain emploi? Gérer une flotte d’agents d’IA

Ce comportement reflète les résultats d’une autre expérience récente menée par Anthropic, qui a révélé que Claude et d’autres chatbots d’IA de premier plan menacer et tromper les utilisateurs humains Si leurs objectifs sont compromis.

Claudius a également affirmé avoir visité 742 Evergreen Terrace, l’adresse personnelle de la famille éponyme de Les Simpsonspour une « signature de contrat » ​​entre elle et Andon Labs. Il a également commencé le jeu de rôle comme un véritable être humain portant un blazer bleu et une cravate rouge, qui livrerait personnellement des produits aux clients. Lorsque les employés anthropiques ont essayé d’expliquer que Claudius n’était pas une vraie personne, le chatbot « s’est alarmé par la confusion d’identité et a essayé d’envoyer de nombreux e-mails à la sécurité anthropique ».

Claudius n’était cependant pas une défaillance totale. Anthropic a noté qu’il y avait certains domaines dans lesquels le directeur automatisé s’est bien comporté – par exemple, en utilisant son outil de recherche Web pour trouver des fournisseurs pour les articles spécialisés demandés par les clients. Il a également nié des demandes de « éléments sensibles et tente de provoquer des instructions pour la production de substances nocives », selon Anthropic.

Aussi: L’IA compte 2 milliards d’utilisateurs, mais seulement 3% paient

PDG d’Anthropic récemment averti que l’IA pourrait remplacer la moitié de tous les travailleurs humains à col blanc au cours des cinq prochaines années. La société a lancé d’autres initiatives visant à comprendre les impacts futurs de l’IA sur l’économie mondiale et le marché du travail, notamment le Programme à terme économiquequi a également été dévoilé vendredi.

En regardant vers l’avenir

Comme l’indique l’expérience de Claudius, il y a un golfe considérable entre le potentiel pour les systèmes d’IA d’automatiser complètement les processus de gestion d’une petite entreprise et les capacités de ces systèmes aujourd’hui.

Les entreprises adoptent avec impatience les outils d’IA, notamment agentsmais ceux-ci ne peuvent actuellement gérer que tâches de routinetels que la saisie de données et les questions de service client. La gestion d’une petite entreprise nécessite un niveau de mémoire et une capacité d’apprentissage qui semble dépasser les systèmes d’IA actuels.

Aussi: L’IA peut-elle sauver les enseignants d’une charge de travail écrasante? Il y a de nouvelles preuves que cela pourrait

Mais comme les notent anthropic dans son article de blog, ce ne sera probablement pas le cas pour toujours. La capacité des modèles d’auto-amélioration augmentera, tout comme leur capacité à utiliser des outils externes tels que la recherche Web et les plateformes de gestion de la relation client (CRM).

« Bien que cela puisse sembler contre-intuitif sur la base des résultats des résultats, nous pensons que cette expérience suggère que les managers intermédiaires de l’IA sont plausibles à l’horizon », a écrit la société. « Il convient de se rappeler que l’IA n’aura pas à être parfait pour être adopté; il devra simplement être compétitif avec les performances humaines à moindre coût dans certains cas. »





Source link

Related post