L’IA ne peut toujours pas battre les humains à lire les indices sociaux

Les modèles d’IA ont progressé rapidement ces dernières années et peuvent déjà surpasser les humains dans diverses tâches, de la génération de code de base à des jeux dominants comme les échecs et GO. Mais malgré une puissance de calcul massive et des milliards de dollars de financement des investisseurs, ces modèles avancés ne peuvent toujours pas résister aux humains lorsqu’il s’agit de vraiment comprendre comment les vraies personnes interagissent les uns avec les autres dans le monde. En d’autres termes, l’IA a encore des difficultés fondamentalement à «Reading the Room».
C’est la réclamation Fabriqué dans un nouveau papier Par des chercheurs de l’Université Johns Hopkins. Dans l’étude, les chercheurs ont demandé à un groupe de bénévoles humains de regarder des clips vidéo de trois secondes et d’évaluer les différentes façons dont les individus de ces vidéos interagissaient les uns avec les autres. Ils ont ensuite chargé plus de 350 modèles d’IA – y compris l’image, la vidéo et les systèmes basés sur le langage – prédisant comment les humains avaient évalué ces interactions. Alors que les humains ont terminé la tâche avec facilité, le IA Les modèles, quelles que soient leurs données de formation, ont eu du mal à interpréter avec précision ce qui se passait dans les clips. Les chercheurs disent que leurs résultats suggèrent que les modèles d’IA ont encore une difficulté significative à comprendre les signaux sociaux humains dans des environnements réels. Cette perspicacité pourrait avoir des implications majeures pour l’industrie croissante des voitures et robots sans conducteur compatibles AI, qui ont intrinsèquement besoin de naviguer dans le monde physique aux côtés des gens.
« Chaque fois que vous voulez qu’un système d’IA interagisse avec les humains, vous voulez être en mesure de savoir ce que font ces humains et ce que les groupes d’humains font les uns avec les autres », a expliqué Leyla Isik, professeure adjointe de sciences cognitives et de papier Science populaire. «Cela souligne vraiment comment beaucoup de ces modèles sont en deçà de ces tâches.»
ISIK présentera les résultats de la recherche aujourd’hui à la Conférence internationale sur les représentations de l’apprentissage.
Les observateurs humains avaient un consensus tandis que les modèles d’IA étaient partout
Bien que des recherches antérieures aient montré que IA Les modèles peuvent décrire avec précision ce qui se passe dans les images fixes à un niveau comparable aux humains, cette étude visait à voir si cela est toujours vrai pour la vidéo. Pour ce faire, Isik dit qu’elle et ses collègues chercheurs ont sélectionné des centaines de vidéos dans un ensemble de données de vision par ordinateur et les ont coupés à trois secondes chacun. Ils ont ensuite réduit l’échantillon pour inclure uniquement des vidéos mettant en vedette deux humains en interaction. Les bénévoles humains ont vu ces clips et ont répondu à une série de questions sur ce qui se passait, évaluée à une échelle de 1 à 5. Les questions allaient d’invites objectives comme « Pensez-vous que ces corps se font face? » à des plus subjectives, par exemple si l’interaction semblait émotionnellement positive ou négative.
En général, les répondants humains avaient tendance à donner des réponses similaires, comme en témoignent leurs notes – suggérant que les gens partagent une compréhension observationnelle de base des interactions sociales.
Les chercheurs ont ensuite posé des types de questions similaires aux modèles d’image, de vidéo et de langue. (Les modèles linguistiques ont reçu des légendes écrites humaines pour analyser au lieu de la vidéo brute.) Dans tous les modèles d’IA, les modèles d’IA n’ont pas réussi à démontrer le même niveau de consensus que les participants humains. Les modèles de langage ont généralement mieux fonctionné que les modèles d’image et de vidéo, mais ISIK note que cela peut être dû en partie au fait qu’ils analysaient des légendes qui étaient déjà assez descriptives.
Les chercheurs ont principalement évalué les modèles en libre accès, dont certains avaient plusieurs années. L’étude n’a pas inclus les derniers modèles récemment publiés par les principales sociétés d’IA comme OpenAI et anthropic. Pourtant, le contraste frappant entre les réponses humaines et l’IA suggère qu’il peut y avoir quelque chose de fondamentalement différent sur la façon dont les modèles et les humains traitent les informations sociales et contextuelles.
« Il ne suffit pas de voir une image et de reconnaître des objets et des visages », a déclaré Kathy Garcia, étudiante doctorale et co-auteur du journal de l’Université John Hopkins, Kathy Garcia. «Nous avons besoin d’IA pour comprendre l’histoire qui se déroule dans une scène. Comprendre les relations, le contexte et la dynamique des interactions sociales est la prochaine étape, et cette recherche suggère qu’il pourrait y avoir un angle mort dans le développement du modèle d’IA.»
Comprendre la dynamique sociale humaine sera critique pour «l’IA incarnée»
Les résultats viennent alors que les entreprises technologiques se précipitent pour intégrer l’IA dans un nombre croissant de robots physiques – un concept souvent appelé «AI incarné. » Des villes comme Los Angeles, Phoenix et Austin sont devenues des tests d’essai de cette nouvelle ère grâce à la Présence croissante de Waymo Robotaxis sans conducteur Partage des routes avec des véhicules axés sur l’homme. Une compréhension limitée des environnements complexes a conduit certaines voitures sans conducteur à se comporter de manière irrégulière ou même à rester coincée dans des boucles, en conduisant en rond. Alors que certaines études récentes suggèrent que les véhicules sans conducteur peuvent actuellement être moins sujet aux accidents que le conducteur humain moyenles régulateurs fédéraux ont néanmoins a ouvert des enquêtes sur Waymo et Zoox appartenant à Amazon pour le comportement de conduite qui aurait violé les lois sur la sécurité.
D’autres entreprises – comme Chiffre Ai, Dynamique de Bostonet Tesla —Avient des choses un peu plus loin en développant des robots humanoïdes compatibles avec l’IA conçus pour fonctionner aux côtés des humains dans des environnements de fabrication. Le chiffre a déjà signé un accord avec BMW pour déployer l’un de ses Modèles bipèdes dans une installation en Caroline du Sudbien que son objectif exact reste quelque peu vague. Dans ces contextes, la compréhension correcte des indices et le contexte sociaux humains est encore plus critique, car même de petits erreurs d’intention courent le risque de blessure. En allant un peu plus loin, certains experts ont même suggéré que des robots humanoïdes avancés pourraient un jour aider aîné et garde d’enfants. ISIK a suggéré que les résultats de l’étude signifient qu’il y a encore plusieurs étapes qui doivent être prises avant que la vision ne devienne une réalité.
«(La recherche) met vraiment en évidence l’importance d’apporter les neurosciences, les sciences cognitives et l’IA dans ces contextes plus dynamiques du monde réel.» Dit Isik.