Tl; dr: L’article présente Mosaic, un cadre d’apprentissage collaboratif entre les systèmes d’IA autonomes et agentiques qui fonctionnent dans des environnements dynamiques décentralisés. Ces agents partagent et réutilisent sélectivement les connaissances modulaires (sous la forme de masques de réseau neuronal) sans nécessiter de synchronisation ou de contrôle centralisé.
Les principales innovations comprennent:
- Similitude des tâches via les incorporations de Wasserstein et la similitude du cosinus pour guider la récupération des connaissances.
- Heuristique basée sur les performances pour décider quoi, quand et à qui apprendre.
- Composition modulaire des connaissances pour créer de meilleures politiques.
Des expériences montrent que la mosaïque surpasse les apprenants isolés en vitesse et en performances, résolvant parfois des tâches que les agents isolés ne peuvent pas. Au fil du temps, une forme d’auto-organisation émergente se produit entre les agents, résultant des hiérarchies découvertes dans le programme d’études, où les tâches plus simples prennent en charge les plus dures, améliorant l’efficacité et l’adaptabilité du collectif.
Dans l’ensemble, la mosaïque démontre que la collaboration sélective et autonome peut produire une intelligence collective qui dépasse la somme de ses parties.
Le papier: https://arxiv.org/abs/2506.05577
Le code: https://github.com/dmiu-shell/mosaic
Abstrait:
L’IA agentique a suscité un intérêt important en tant que paradigme de recherche axé sur l’autonomie, l’apprentissage autonome et la fiabilité à long terme de la prise de décision. Les systèmes agentiques du monde réel fonctionnent dans des paramètres décentralisés sur un large ensemble de tâches ou de distributions de données avec des contraintes telles que la bande passante limitée, l’exécution asynchrone et l’absence d’un modèle centralisé ou même des objectifs communs. Nous demandons que l’exploitation des compétences, des similitudes de tâches et des capacités de communication précédemment apprises dans un collectif d’IA agentique sont des éléments difficiles mais essentiels pour permettre l’évolutivité, l’ouverture et la dynamique de l’apprentissage collaboratif bénéfique. Dans cet article, nous introduisons le partage et la composition modulaires dans l’apprentissage collectif (mosaïque), un algorithme agentique qui permet à plusieurs agents de résoudre indépendamment différentes tâches tout en identifiant, partageant et réutilisant des connaissances utiles à la machine, sans coordination, synchronisation ou contrôle centralisé. La mosaïque combine trois mécanismes: (1) la composition de la politique modulaire via des masques de réseau neuronal, (2) l’estimation de la similitude des cosinus en utilisant des incorporations de Wasserstein pour la sélection des connaissances, et (3) la communication asynchrone et l’intégration de la politique. Les résultats sur un ensemble de repères RL montrent que la mosaïque a une plus grande efficacité d’échantillon que les apprenants isolés, c’est-à-dire qu’il apprend beaucoup plus rapidement et, dans certains cas, trouve des solutions aux tâches qui ne peuvent pas être résolues par les apprenants isolés. Les dynamiques de l’apprentissage et du partage collaboratives entraînent également l’émergence de programmes de tâches idéaux, de facile à dur. Ces résultats soutiennent le cas de l’apprentissage collaboratif dans les systèmes agents afin d’obtenir des performances meilleures et en constante évolution aux niveaux individuel et collectif.
Illustration de haut niveau des principales étapes algorithmiques mosaïques. (A) Une incorporation de tâche Wasserstein est maintenue tout au long de l’apprentissage. (B) Les intérêts sont partagés avec d’autres agents sous forme de requêtes. (C) Les agents répondent avec des informations concernant leurs connaissances. La sélection se produit via la similitude (D) et les performances (E). (F) (g) Les masques de réseau sont demandés. (H) a reçu des masques composés ensemble pour la prochaine passe avant.
La comparaison de la mosaïque avec les approches de base de plus de 70 courses (14 tâches et cinq graines / tâche) avec des intervalles de confiance à 95%.
Ablation de la mosaïque avec des composants individuels retirés du système. Mosaic fonctionne le mieux lorsque tous les composants fonctionnent comme un seul.