Quand obtiendrons-nous le chatpt de la robotique? L’avenir de l’IA incarnée est brillant

 Quand obtiendrons-nous le chatpt de la robotique? L’avenir de l’IA incarnée est brillant


Micropssi a développé une programmation robotée probabiliste plutôt que déterministe. Source: Micropssi Industries

Avec le succès de l’IA génératrice, il y a eu beaucoup de discussions sur le potentiel d’amener le type d’intelligence flexible que l’on trouve dans de grands modèles de langue dans le monde physique. C’est souvent appelé «IA incarné», et c’est l’une des opportunités les plus transformatrices de l’économie mondiale.

Je voudrais dire que l’avenir de l’IA incarnée est brillant, mais le chemin à terme est beaucoup moins simple que le chemin de l’IA dans le domaine purement numérique. La route vers un «Chatgpt pour la robotique» a un certain nombre de speedbumps, et de nouvelles percées sont nécessaires pour que l’idée devienne une réalité. Cela a des implications pour les fondateurs et les investisseurs des startups, que je vais tenter de distiller en quelques recommandations.

Une automatisation plus robotique est une inévitabilité, et toute l’incertitude réside dans la question de commentpas si. Depuis son acquisition des systèmes Kiva en 2012, Amazone a déployé plus de 750 000 robots dans ses entrepôts. Startups Et les investisseurs tentent de trianguler les applications suivantes qui peuvent atteindre ce niveau d’alignement entre les capacités robotiques et les besoins du marché.

La trajectoire de IA est une variable clé dans ce processus de triangulation, et de nouveaux modèles puissants pourraient être des changeurs de jeu absolus. Alors, où sommes-nous dans le développement de ces modèles? J’ai parlé avec des roboticiens expérimentés et ceux qui développent des modèles de fondations robotiques pour mieux comprendre cette question.


AD du site pour l'enregistrement du sommet de la robotique 2025.
Inscrivez-vous maintenant pour ne pas manquer!


Une étape à la fois vers une IA incarnée

L’objectif de la recherche sur l’IA incarnée de pointe est de créer une intelligence de robot qui est à usage général plutôt que spécifique à la tâche – suffisamment flexible pour gérer les cas d’utilisation nouveaux ou très dynamiques sans avoir besoin d’une formation dédiée. La promesse de modèles de fondations robotiques à usage général est double.

Premièrement, ils élargiraient considérablement le nombre de cas d’utilisation adressable par la robotique. Deuxièmement, ils raccourciraient les délais de commercialisation historiquement longs pour les systèmes robotiques.

Ces deux promesses sont tenues dans le domaine purement numérique par des modèles de fondation comme GPT-4, Gemini, Claude et Llama. Ces modèles ont ouvert la porte à d’innombrables nouveaux cas d’utilisation tout en mettant de petits modèles d’IA à usage unique sur une voie rapide à l’obsolescence, car les premiers peuvent faire le même travail que le second tout en éliminant l’investissement d’ingénierie requis pour faire une formation sur mesure sur mesure.

Les modèles à usage général sont devenus le moyen de facto de construire presque tout dans l’IA. On pourrait spéculer qu’un nouveau modèle de type Chatgpt arrivera à dominer le développement d’applications robotiques.

Cependant, je ne pense pas que ce sera le cas à court terme. Au lieu de cela, mon attente est que les techniques d’IA génératrices insuffleront progressivement la robotique plutôt que de remodeler le paysage du jour au lendemain, et ils coexisteront avec la robotique classique pendant un certain temps.

La robotique a progressé régulièrement grâce aux techniques génératrices de l’IA, même si elles peuvent ne pas être la tête. Les startups construites aujourd’hui utilisent déjà des techniques qui promettent une intelligence plus flexible et généralisée et un délai de marché plus rapide. Ils ne comptent tout simplement pas sur un seul «modèle mondial» comme fondement de leur application.

Par exemple, la politique de diffusion exploite les modèles de diffusion, la même technique qui sous-tend les générateurs d’images AI, pour générer un comportement du robot. Les modèles résultants sont très flexibles et nécessitent moins de données de formation, mais pour l’instant, ils sont généralement toujours formés sur une base de tâche par tâche. Une autre technique d’IA générative prometteuse est les champs de radiance neuronale (NERF), qui peuvent reconstruire des scènes 3D à partir d’images 2D et avoir des applications en robotique comme la création de nouvelles données de formation.

Les modèles à usage général ont le potentiel de devenir la base du développement de la robotique, et la promesse de l’approche a été mise en évidence par des modèles de recherche comme Google‘s rt-x et Intelligence physique‘S π0.

Un point de preuve important de ces modèles est qu’ils ont été démontrés qu’ils sont supérieurs à la somme de leurs parties. Lorsque la formation des données de nombreuses tâches est incluse, le modèle fonctionne mieux sur une tâche individuelle que si elle avait été formée uniquement sur cette tâche.

Pourtant, l’approche fait face à des speedbumps sur la route de l’adoption liée aux données, au déterminisme et au calcul. Plus de percées sont nécessaires avant que cette catégorie de modèles ne soit prête pour la production.

https://www.youtube.com/watch?v=a6ix6vzuk0c

Trois speedbumps avec des modèles de fondation

Le premier speedbump est qu’il ne semble pas y avoir un corpus de données prêtes à l’emploi pour la formation d’un modèle de fondation sur l’interaction avec le monde physique, contrairement à l’abondance de données de texte, d’image et d’audio à échelle Web qui ont rendu les modèles de fondation existants possibles. Les modèles de perception sont devenus très puissants, mais la connexion de la perception à l’actionnement est difficile.

Pour atteindre l’échelle nécessaire à un véritable modèle de fondation, je pense que des investissements importants devront entrer dans des mécanismes pour collecter plus de données, ainsi que l’expérimentation pour comprendre l’efficacité de différents types de données de formation. Par exemple, il n’est pas clair dans quelle mesure les vidéos de tâches effectuant des humains peuvent contribuer aux performances du modèle. Je crois qu’avec une combinaison d’ingéniosité et d’investissement, de puissantes données de formation à grande échelle peuvent être assemblées.

Une trajectoire qui semble probable est que des modèles puissants avec une pré-formation importante émergeront au cours des prochaines années, mais ils nécessiteront des données de formation supplémentaires supplémentaires pour être performantes à n’importe quelle tâche spécifique. Cela s’apparente à la fin des modèles de grandes langues, mais ce sera plus essentiel car moins de capacités fonctionneront «hors de la boîte» avec des modèles de robotique.

Le deuxième speedbump se rapporte au déterminisme et à la fiabilité. En dehors de la robotique, l’importance du déterminisme varie considérablement selon les applications, et les applications génératrices d’IA les plus réussies sont celles où le déterminisme n’est pas important. En robotique, le déterminisme est essentiel. En mettant de côté la sécurité, le retour sur investissement (ROI) de la robotique dépend généralement du débit, et le temps consacré à la résolution des erreurs détruit le débit.

Jusqu’à présent, la recherche sur les modèles de la Fondation robotique a mis l’accent sur la nouveauté et non la fiabilité. Il y a une quantité substantielle d’efforts dans les méthodes d’atténuation du non-déterminisme des modèles d’IA génératifs – largement, pas seulement en robotique – donc je crois que ce problème peut être résolu, mais probablement pas en un seul coup. Il s’agit d’un argument pour une coexistence de modèles déterministes et non déterministes.

Afin d’équilibrer la flexibilité avec la fiabilité, notre société de portefeuille Micropssi Industriesqui automatise des tâches à grande variance pour certains des plus grands fabricants du monde, usages Réseaux de neurones déterministes plutôt que probabilistes.

Le troisième speedbump pour les modèles de fondation robotique est que dans la robotique, le calcul doit souvent être fait au bord, faisant de l’inférence un défi. Les robots doivent être rentables et aujourd’hui, de nombreuses applications ne soutiendront pas le coût d’ajouter suffisamment de GPU pour exécuter l’inférence pour les modèles les plus puissants.

Ce problème est potentiellement le plus tractable des trois que j’ai mentionnés. On s’attend à ce que les roboticiens prennent de grands modèles comme point de départ et utiliseront des techniques de distillation pour créer des modèles plus petits et plus ciblés avec moins d’exigences en matière de ressources. Cependant, cela réduira nécessairement la généralité des modèles et est contraire à l’idée d’un robot qui peut tout faire.

Notre entreprise de portefeuille RGO Robotics fournitures son moteur de perception à un large éventail de robot mobile Les OEM, et à travers cette base de fabricants de robots, il s’attend à ce que des modèles plus petits et moins chers continuent d’être populaires dans les cas d’utilisation sensibles aux coûts. Le matériel améliore continuellement les prix / performances, donc ce qui est pratique à fonctionner au bord évoluera.

Des techniques comme la quantification permettent également de réduire efficacement la taille des grands modèles. Des approches hybrides sont également possibles, dans lesquelles un calcul est effectué dans le cloud et certains sur périphérique.

https://www.youtube.com/watch?v=kfqw8-stttq

Recommandations pour l’ère Genai, incarnée

Bien que le monde soit de plus en plus numérique, nous vivons toujours dans un monde physique et l’interaction du numérique avec le physique a une portée illimitée pour la croissance.

Les observateurs demandent souvent pourquoi l’IA peut écrire un essai ou un morceau de musique, mais ne fait pas quelque chose de subalterne comme charger le lave-vaisselle. Ce dernier sera probablement réalisable à court terme, mais en outre, la même question est posée sur les processus physiques dans les industries d’une valeur de milliards de dollars. Cela fait de l’IA incarnée l’une des opportunités les plus profondes de l’économie mondiale.

La robotique fait d’énormes progrès, et je vois les robots devenir des catalyseurs critiques dans les industries où ils n’étaient jamais présents auparavant, tandis que les marchés de la robotique établis bénéficient de nouvelles innovations d’intelligence artificielle incarnées. L’IA générative sera un élément transformateur de la voie à suivre pour la robotique, mais ma conclusion pour l’instant est que ce sera un processus progressif plutôt qu’un changement de nuit qui change fondamentalement la construction des entreprises de robotique.

Dans le même temps, il serait stupide de sous-estimer la capacité des innovateurs à surmonter les défis que j’ai décrits, mais il est très difficile de prédire quand une percée se produira. En conséquence, mes recommandations pour les entrepreneurs de démarrage des sociétés de robotique aujourd’hui sont:

  1. Concentrez-vous sur une application de grande valeur et déterminez la meilleure façon de traiter cette application, sans être mariée à une approche. Connaissez toutes les nuances de l’application à l’envers, car souvent le diable dans les détails est ce qui tue la viabilité économique d’une solution robotique.
  2. Évaluer où les nouvelles techniques génératrices d’IA peuvent résoudre des problèmes auparavant insolubles. Affichez une IA générative comme un outil plutôt que comme une solution en soi.
  3. Attendez-vous à ce que la plupart de vos heures d’ingénierie soient consacrées à la robustesse et au durcissement, pas à de nouvelles capacités.
  4. Étudiez les livres de jeu des entreprises de robotique les plus réussies et voyez quels aspects ont du sens à imiter. Je ne crois pas que la recette d’une entreprise de robotique réussie, en ce qui concerne la proposition de valeur, le développement de produits ou la stratégie de mise en marché, a fondamentalement changé.

Si vous travaillez sur une nouvelle startup de robotique ou innovez autour de l’application de l’IA générative à l’automatisation du monde physique, j’aimerais avoir de vos nouvelles.

James Falkoff, Converge VCÀ propos de l’auteur

James Falkoff est un partenaire à Convergerune société de capital-risque basée à Boston et la Silicon Valley s’est concentrée sur l’automatisation intelligente et l’intersection des mondes physiques et numériques. Il est investisseur dans l’industrie de la technologie depuis 19 ans.



Source link

Related post