(D) Formation Vae pour la diffusion stable 1.5 à partir de zéro

 (D) Formation Vae pour la diffusion stable 1.5 à partir de zéro


Hé à tous,

J’ai travaillé sur la mise en œuvre Diffusion stable 1.5 à partir de zéro dans C ++principalement comme un projet d’apprentissage. L’ensemble de données de formation que j’utilise est une grande collection d’images de style anime que j’ai rampées sur le Web.

D’après ce que j’ai lu – par exemple, cet article – SD 1.5 combine essentiellement un VAE et un U-Net. J’ai donc commencé avec la partie VAE, la formation sur l’ensemble de données.

Cependant, j’ai remarqué quelques choses que je ne suis pas sûr d’être normales:

  • Même après une session d’entraînement assez longue, le Les images reconstruites sont encore sensiblement floues par rapport aux originaux. (Voir l’exemple ci-joint.)
  • Le La perte de MSE diminue pendant un certain temps mais commence ensuite à osciller – il tombe, puis saute de manière significative, puis tombe à nouveau, répétant ce modèle.

J’ai donc deux questions principales à tous ceux qui ont une expérience des VAE ou de travailler avec SD:

1. Après avoir correctement entraîné une VAE, à quel point la reconstruction devrait-elle être floue?
Je comprends que c’est avec perte de conception, mais qu’est-ce qui est considéré comme «acceptable»? Le mien se sent aussi floue pour le moment.

2. Pourquoi la perte de MSE oscille-t-elle comme celle-ci pendant la formation? Cela pourrait-il être causé par la diversité de l’ensemble de données de formation?
L’ensemble de données est assez varié – différents styles, arrière-plans, résolutions, etc. Je ne sais pas si c’est un facteur ici.

Tout conseil ou pointeur serait super apprécié. Merci!

https://preview.redd.it/t9pjffk7ijef1.png?width=626&format=png&auto=webp&s=3c6d042e60d6048717ed9e731148aba0dbd5fd2

soumis par / u / fleximathdev
(lien) (Commentaires)



Source link

Related post