Reconstruire des objets 3D à partir d’images avec des poses inconnues

 Reconstruire des objets 3D à partir d’images avec des poses inconnues


Nous tirons parti de deux techniques clés pour faciliter la convergence de ce problème mal posé. Le premier est un très léger, formé dynamiquement réseau neuronal convolutionnel (CNN) Encodeur qui régresse les poses de la caméra à partir d’images d’entraînement. Nous passons une image d’entraînement à la échelle à un CNN de quatre couches qui déduit la pose de la caméra. Ce CNN est initialisé à partir du bruit et ne nécessite aucune pré-formation. Sa capacité est si petite qu’elle oblige des images similaires à des poses similaires, offrant une régularisation implicite aidant considérablement la convergence.

La deuxième technique est un perte de modulo qui considère simultanément les pseudo-symétries d’un objet. Nous rendons l’objet à partir d’un ensemble fixe de points de vue pour chaque image de formation, en rétablissant la perte uniquement par la vue qui correspond le mieux à l’image de formation. Cela considère efficacement la plausibilité de plusieurs vues pour chaque image. En pratique, nous trouvons N= 2 vues (voir un objet de l’autre côté) est tout ce qui est requis dans la plupart des cas, mais obtient parfois de meilleurs résultats avec N= 4 pour les objets carrés.

Ces deux techniques sont intégrées à l’entraînement standard du NERF, sauf qu’au lieu de poses de caméra fixe, les poses sont déduites par le CNN et dupliquées par la perte de modulo. Les gradients photométriques se répartissent à travers les caméras les mieux adaptées au CNN. Nous observons que les caméras convergent généralement rapidement vers des poses optimales globalement (voir l’animation ci-dessous). Après la formation du champ neuronal, Melon peut synthétiser de nouvelles vues en utilisant des méthodes de rendu NERF standard.

Nous simplifions le problème en utilisant le Nerf-synthétique Ensemble de données, une référence populaire pour la recherche NERF et commune dans la littérature sur l’inférence Pose. Cet ensemble de données synthétique a des caméras à des distances précisément fixes et une orientation cohérente «UP», nous obligeant à déduire uniquement le coordonnées polaires de la caméra. C’est la même chose qu’un objet au centre d’un globe avec une caméra le pointant toujours, se déplaçant le long de la surface. Nous n’avons alors besoin que de la latitude et de la longitude (2 degrés de liberté) pour spécifier la pose de la caméra.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *