(D) Formation Vae pour la diffusion stable 1.5 à partir de zéro

Hé à tous, J’ai travaillé sur la mise en œuvre Diffusion stable 1.5 à partir de zéro dans C ++principalement comme un projet d’apprentissage. L’ensemble de données de formation que j’utilise est une grande collection d’images de style anime que j’ai rampées sur le Web. D’après ce que j’ai lu – par exemple, cet article – SD 1.5 combine essentiellement un VAE et un U-Net. J’ai donc commencé avec la partie VAE, la formation sur l’ensemble de données. Cependant, j’ai remarqué quelques choses que je ne suis pas sûr d’être normales:
J’ai donc deux questions principales à tous ceux qui ont une expérience des VAE ou de travailler avec SD: 1. Après avoir correctement entraîné une VAE, à quel point la reconstruction devrait-elle être floue? 2. Pourquoi la perte de MSE oscille-t-elle comme celle-ci pendant la formation? Cela pourrait-il être causé par la diversité de l’ensemble de données de formation? Tout conseil ou pointeur serait super apprécié. Merci! soumis par / u / fleximathdev |