(P) un modèle d’ouverture d’ouverture léger pour générer des mangas

J’ai posté ceci sur r / stivediffusion (Voir certains Belle discussion) Et quelqu’un a recommandé qu’il s’adapterait également ici. Tl; drJ’ai finet le Pixart-Sigma sur 20 millions d’images de mangas, et je fais des poids ouverts du modèle. Arrière-planJe suis un ingénieur ML qui a toujours été curieux de Genai, mais qui n’a fait que l’expérimenter il y a quelques mois. J’ai commencé par essayer de générer des bandes dessinées en utilisant des modèles de diffusion, mais j’ai rapidement rencontré trois problèmes:
J’ai donc décidé de retrousser mes manches et de m’entraîner la mienne. Chaque image de ce post a été générée en utilisant le modèle que j’ai construit. 🧠 quoi, comment, pourquoiBien que je sois nouveau dans Genai, je ne suis pas nouveau dans ML. J’ai passé un peu de temps à rattraper le retard – lire des papiers, plonger dans des références open source et essayer de donner un sens au tuyau de feu des nouvelles techniques. C’est beaucoup. Mais après quelques fouilles, Pixart-Sigma s’est démarqué: il frappe bien au-dessus de son poids et n’est pas un cauchemar à courir. Finetuning Bigger Models était hors de budget, donc je me suis engagé dans celui-ci. Le grand obstacle était la cohérence des personnages. Je sais que la solution habituelle est de former une Lora, mais honnêtement, cela semblait un peu circulaire – comment dois-je entraîner une Lora sur un nouveau personnage si je n’ai pas encore assez d’images de ce personnage? Et aussi, j’ai besoin de former une nouvelle Lora pour chaque nouveau personnage? Non, merci. J’ai été inspiré par Diffsensei et Arc2 et a fini par prendre un itinéraire différent: j’ai utilisé des intégres à partir d’un Encodeur de personnage de manga pré-formé comme conditionnement. Cela signifie qu’une fois que je générerai un personnage, je peux extraire son intégration et générer plus de ce personnage sans rien entraîner. Il suffit de tomber dans l’incorporation et de partir. Avec cela résolu, j’ai collecté un ensemble de données d’environ 20 millions d’images de mangas et de Pixart-Sigma finetuné, ajoutant quelques modifications pour permettre le conditionnement sur plus que des invites de texte. 🖼️ Le résultat finalLe résultat est un modèle de génération d’images de mangas léger qui se déroule en douceur sur les GPU grand public et peut générer de l’art manga noir et blanc assez décent à partir d’invites de texte. Je peux:
Vous pouvez jouer avec https://drawatoon.com ou téléchargez les poids du modèle et exécutez-le localement. 🔁 limitationsAlors, comment ça marche bien?
🛣️ Feuille de route + quelle est la prochaine étapeIl y a encore des trucs à faire.
Enfin, j’ai construit drawatoon.com Ainsi, les gens peuvent tester le modèle sans rien télécharger. Depuis que je paie les GPU de leur poche:
J’adorerais entendre vos pensées, vos commentaires et si vous gérez quelque chose de cool avec cela, veuillez partager! soumis par / u / fumeisama |