Modèle basé sur les votes développé pour une estimation de pose d’objets à main plus précise

 Modèle basé sur les votes développé pour une estimation de pose d’objets à main plus précise


Résultats qualitatifs. De gauche à droite: les images RVB et profondeur d’entrée de DexYCB DataSet (14); Images rendues en utilisant des poses de main et d’objet de vérité au sol; Images rendues utilisant des poses de main de la vérité au sol et des poses d’objets prédites par notre méthode, la méthode RVB-D (18) et la méthode RVB (20), et la méthode d’estimation de la pose de l’objectif à main (43). Crédit: Alexandria Engineering Journal (2025). Doi: 10.1016 / j.aej.2025.02.017

De nombreuses applications robotiques s’appuient sur des bras ou des mains robotiques pour gérer différents types d’objets. L’estimation de la pose de ces objets portables est une tâche importante mais difficile dans la robotique, la vision informatique et même les applications de réalité augmentée (AR). Une direction prometteuse consiste à utiliser des données multimodales, telles que les images de couleur (RVB) et de profondeur (d). Avec la disponibilité croissante de capteurs 3D, de nombreuses approches d’apprentissage automatique sont apparues pour tirer parti de cette technique.

Cependant, les approches existantes sont toujours confrontées à deux défis principaux. Premièrement, ils font face à des chutes de précision lorsque les mains obtiennent les objets maintenus, obscurcissant les caractéristiques critiques nécessaires à l’estimation de la pose. De plus, les interactions à objet manuel introduisent des transformations non rigides, ce qui complique encore le problème. Cela se produit lorsque les mains changent la forme ou la structure de l’objet tenu, par exemple lors du pressage d’une boule douce, déformant la forme perçue de l’objet.

Deuxièmement, la plupart des techniques actuelles extraient les fonctionnalités des squeries RVB et RVB-D distinctes, qui sont ensuite fusionnées au niveau des fonctionnalités. Étant donné que ces deux squelettes gèrent des modalités intrinsèquement différentes, cette fusion peut entraîner des décalages de distribution de représentation, ce qui signifie que les caractéristiques tirées des images RVB peuvent désaligner celles extraites des entrées RVB-D, affectant l’estimation de la pose.

De plus, pendant les interactions denses et denses raffinées entre les deux étaux -étiques provoquent des perturbations de performance et limitent les avantages d’incorporer les caractéristiques RVB.

Pour résoudre ces problèmes, une équipe de recherche dirigée par le professeur agrégé Phan Xuan Tan du programme mondial innovant, College of Engineering du Shibaura Institute of Technology, Japan, ainsi que le Dr Dinh-Cuong Hoang et d’autres chercheurs de l’Université FPT, Vietnam, ont développé un réseau innovant en demeure profonde spécifiquement conçue pour l’estimation de la pose à l’aide d’images RGB-D.

«L’innovation clé de notre cadre d’apprentissage en profondeur réside dans un mécanisme de fusion basé sur les votes, qui intègre efficacement les points clés 2D (RVB) et 3D (profondeur), tout en abordant les occlusions induites par la main et les difficultés de fusion des données mulmidales. et intègre un modèle d’interaction à objet manuel basé sur l’auto-agence, entraînant des améliorations substantielles « , explique le Dr Tan.

Leur étude a été mis à disposition en ligne le 17 février 2025 dans le Alexandria Engineering Journal.

Le cadre d’apprentissage profond proposé comprend quatre composants: les squelettes pour extraire des caractéristiques de haute dimension d’images 2D et des données de cloud Point 3D, des modules de vote, un nouveau module de fusion basé sur les votes et un module d’estimation de la pose d’objet à main.

Les chercheurs développent un nouveau modèle basé sur les votes pour une estimation de pose d'objets à main plus précise

Exemple de votes générés projetés sur une image 2D. Les points verts indiquent des prédictions précises étroitement alignées sur les points clés de la vérité au sol, tandis que les points rouges représentent des prédictions s’écartant davantage de la vérification du sol. Crédit: Alexandria Engineering Journal (2025). Doi: 10.1016 / j.aej.2025.02.017

Initialement, les épine dorsales 2D et 3D prédisent les points clés 2D et 3D des mains et des objets des images RGB-D. Les points clés se réfèrent aux emplacements significatifs des images d’entrée qui aident à décrire la pose des mains et des objets. Ensuite, les modules de vote de chaque épine dorsale ont voté indépendamment pour leurs points clés respectifs.

Ces votes sont ensuite intégrés par le modèle de fusion basé sur les votes, qui combine dynamiquement les votes 2D et 3D en utilisant la projection de quartier basée sur le rayon et les mécanismes d’attention des canaux. Les anciens préservent tandis que ce dernier s’adapte à diverses conditions d’entrée, assurant la robustesse et la précision.

Cette fusion basée sur les votes tire effectivement les forces des informations de RVB et de profondeur, atténuant l’impact des occlusions et du désalignement induits par la main, ce qui permet une estimation précise de la pose des objets à main.

Le composant final, le module d’estimation de la pose d’objet adapté à la main, améliore encore la précision en utilisant un mécanisme d’auto-agence pour capturer le entre les points clés de la main et de l’objet. Cela permet au système de tenir compte des transformations non rigides causées par différentes poses et poignées de main.

Pour tester leur cadre, les chercheurs ont mené des expériences sur trois ensembles de données publiques. Les résultats ont montré des améliorations significatives de la précision (jusqu’à 15%) et de la robustesse par rapport aux approches de pointe.

De plus, les expériences sur place ont démontré une précision moyenne de 76,8%, avec des améliorations des performances allant jusqu’à 13,9% par rapport aux méthodes existantes. Le cadre réalise également des temps d’inférence allant jusqu’à 40 millisecondes sans raffinement et 200 millisecondes avec raffinement, démontrant l’applicabilité du monde réel.

« Nos recherches abordent directement un goulot d’étranglement de longue date dans les industries de la robotique et de la vision par ordinateur – une estimation de la pose d’objets, dans les scénarios d’interaction à main-objet occlus, dynamiques et complexes », remarque le Dr Tan.

« Notre approche est non seulement plus précise mais aussi plus simple que de nombreuses techniques existantes. Il a le potentiel d’accélérer le déploiement de systèmes propulsés par l’IA, tels que des lignes de montage robotiques automatisées efficaces, une robotique assistée humaine et des technologies AR / VR immersives. »

Dans l’ensemble, cette approche innovante représente un pas en avant significatif dans la robotique, permettant aux robots de gérer plus efficacement des objets complexes et de faire progresser les technologies AR pour modéliser des interactions à objet manuel plus réalistes.

Plus d’informations:
Dinh-Cuong Hoang et al, fusion multimodale basée sur les votes pour l’estimation de la pose d’objets portatifs, Alexandria Engineering Journal (2025). Doi: 10.1016 / j.aej.2025.02.017

Citation: Modèle basé sur les votes développé pour une estimation de pose d’objets à main plus précise (2025, 1er mai) récupéré le 3 mai 2025 à partir de https://techxplore.com/news/2025-05-vote-basé-Accur-Held-Pose.html

Ce document est soumis au droit d’auteur. Outre toute émission équitable aux fins d’études privées ou de recherche, aucune pièce ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni uniquement à des fins d’information.





Source link

Related post