(R) Apprentissage contrastif multi-visualités: cadre de principe pour 3 vues et modalités

Intelligence Artificielle
Noesis News
juillet 30, 2025
0
26
7 minutes de lecture

Tl; dr: Les méthodes SSL actuelles comme SWAV, Dino et Vicregl utilisent plusieurs vues, mais les manipulez par voie suboptimale en agrégeant les pertes par paires, provoquant des objectifs contradictoires et des interactions manquées. Nous introduisons MV-Infonce et MV-DHEL – des objectifs de principe qui évoluent correctement avec un certain nombre de vues et empêchant l’effondrement de la dimensionnalité.

Papier: https://arxiv.org/abs/2507.06979

Code: https://github.com/pakoromilas/multi-view-cl

Le problème

Les méthodes SSL actuelles créent plusieurs vues augmentées, mais les manipulent par l’agrégation de perte par paire:

L_total = L(v1,v2) + L(v1,v3) + L(v1,v4) + L(v2,v3) + L(v2,v4) + L(v3,v4)

Cette approche provoque:

Objectifs contradictoires: Chaque vue satisfait à plusieurs termes de perte concurrents
Relations de vision ignorées: L’agrégation par paire manque les interactions de vue entre toutes les vues
Limitations fondamentales: Hérite des problèmes (par exemple, couplage d’alignement-uniformité) à partir des pertes de CL par paires
Transfert limité: Les avantages multi-visualités diminuent à mesure que vous ajoutez plus de vues

Le problème de clip: Alors que Clip a révolutionné l’apprentissage en langue visuelle, l’étendre à plus de 3 modalités n’est toujours pas simple. Le cadre contrastif de Clip est intrinsèquement par paire – l’ajout de données audio, vidéo ou capteurs nécessite des modèles séparés par paire ou une agrégation naïve, qui ne parviennent pas à capturer toutes les interactions multimodales simultanément.

Nos fonctions de perte

Mv-infonce: Étend l’infonction à n vues correctement
Mv-dhel: Découpe l’alignement de l’uniformité

Résultats clés

✅ Faire à l’échelle correctement avec le nombre de vues

✅ Empêcher l’effondrement de la dimensionnalité Lorsque vous utilisez plus de 5 vues (figure ci-dessous)

✅ Surpasser Approches multi-visualités sur ImageNet1k et trois autres ensembles de données

✅ S’étendre à plus de 3 modalités (pas seulement 2!)

https://preview.redd.it/vib4lluozrff1.png?width=1200&format=png&auto=webp&s=9c0daafe65e74c8a24bca93f2343d3c17a1767f2

Contributions globales

Formulation multi-visualités fondée sur des principes: Framework mathématique qui étend correctement CL des paramètres par paire à la multi-visualités, la modélisation des interactions simultanées entre toutes les vues N plutôt que d’agréger les comparaisons par paires
Nouvelles fonctions de perte: (i) MV-infonce – Extension naturelle de l’infoncé incorporant toutes les interactions de vue, (ii) MV-DHEL – Découpe l’alignement de l’uniformité à travers les vues
Garanties théoriques: Prouvé que les deux objectifs partagent un comportement asymptotique avec l’infoncé traditionnelle, les établissant comme des extensions théoriquement solides
Avancées empiriques: Surpassent constamment les approches existantes, évoluent efficacement avec la multiplicité de la vue, atténuer l’effondrement de la dimensionnalité avec des vues suffisantes
Applicabilité multimodale: Contrairement aux méthodes existantes conçues pour les paramètres bimodaux, directement applicables à plus de 3 modalités

Applications possibles

Au-delà des coups: Apprentissage multimodal avec vision + texte + audio + données de capteur
Compréhension vidéo: Temporal + spatial + vues sémantiques dans un cadre unifié
Imagerie médicale: Plusieurs types de scan (CT, IRM, radiographie) sans limitations par paire
Robotique: Vision + Tactile + Sens proprioceptif avec garanties théoriques

Le repo GitHub comprend des implémentations Pytorch.

Heureux de discuter de nos recherches!

soumis par / u / nai_alla
(lien) (Commentaires)

Source link

(R) Apprentissage contrastif multi-visualités: cadre de principe pour 3 vues et modalités

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Pourquoi Jamie a-t-il tué Katie à l’adolescence? Qu’est-ce...

Bitcoin prêt à récupérer 90 000 $, selon...

Les innovations SS atteignent 4 000 chirurgies robotiques...

Apprenez vos animaux de ferme avec l’IA!

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags