(D) Formation Vae pour la diffusion stable 1.5 à partir de zéro

Intelligence Artificielle
Noesis News
juillet 23, 2025
0
5
4 minutes de lecture

Hé à tous,

J’ai travaillé sur la mise en œuvre Diffusion stable 1.5 à partir de zéro dans C ++principalement comme un projet d’apprentissage. L’ensemble de données de formation que j’utilise est une grande collection d’images de style anime que j’ai rampées sur le Web.

D’après ce que j’ai lu – par exemple, cet article – SD 1.5 combine essentiellement un VAE et un U-Net. J’ai donc commencé avec la partie VAE, la formation sur l’ensemble de données.

Cependant, j’ai remarqué quelques choses que je ne suis pas sûr d’être normales:

Même après une session d’entraînement assez longue, le Les images reconstruites sont encore sensiblement floues par rapport aux originaux. (Voir l’exemple ci-joint.)
Le La perte de MSE diminue pendant un certain temps mais commence ensuite à osciller – il tombe, puis saute de manière significative, puis tombe à nouveau, répétant ce modèle.

J’ai donc deux questions principales à tous ceux qui ont une expérience des VAE ou de travailler avec SD:

1. Après avoir correctement entraîné une VAE, à quel point la reconstruction devrait-elle être floue?
Je comprends que c’est avec perte de conception, mais qu’est-ce qui est considéré comme «acceptable»? Le mien se sent aussi floue pour le moment.

2. Pourquoi la perte de MSE oscille-t-elle comme celle-ci pendant la formation? Cela pourrait-il être causé par la diversité de l’ensemble de données de formation?
L’ensemble de données est assez varié – différents styles, arrière-plans, résolutions, etc. Je ne sais pas si c’est un facteur ici.

Tout conseil ou pointeur serait super apprécié. Merci!

https://preview.redd.it/t9pjffk7ijef1.png?width=626&format=png&auto=webp&s=3c6d042e60d6048717ed9e731148aba0dbd5fd2

soumis par / u / fleximathdev
(lien) (Commentaires)

Source link

(D) Formation Vae pour la diffusion stable 1.5 à partir de zéro

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

(R) TreeMind: une bibliothèque haute performance pour expliquer...

5 projets d’IA génératifs amusants pour les débutants...

L’IA n’est pas la seule tendance de la...

Clorox poursuit Cognizant pour 380 millions de dollars...

(R) TreeMind: une bibliothèque haute performance pour expliquer...

5 projets d’IA génératifs amusants pour les débutants...

L’IA n’est pas la seule tendance de la...

Clorox poursuit Cognizant pour 380 millions de dollars...

Cette minuscule imprimante 3D a cinq axes de...

Extraits de «prendre soin de votre bébé épilogue»

AI Rewind 2021: Tendances de l’apprentissage automatique et...

Lily Allen s’ouvre sur Boob Job après la...

L’IA d’Elon Musk propose des

Last Week in AI #297

Trump signe de créer une

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags