(P) un modèle d’ouverture d’ouverture léger pour générer des mangas

Intelligence Artificielle
Noesis News
avril 11, 2025
0
12
9 minutes de lecture

J’ai posté ceci sur r / stivediffusion (Voir certains Belle discussion) Et quelqu’un a recommandé qu’il s’adapterait également ici.

Tl; dr

J’ai finet le Pixart-Sigma sur 20 millions d’images de mangas, et je fais des poids ouverts du modèle.
📦 Téléchargez-les sur le visage étreint: https://huggingface.co/fumeisama/drawatoon-v1
🧪 Essayez-le gratuitement à: https://drawatoon.com

Arrière-plan

Je suis un ingénieur ML qui a toujours été curieux de Genai, mais qui n’a fait que l’expérimenter il y a quelques mois. J’ai commencé par essayer de générer des bandes dessinées en utilisant des modèles de diffusion, mais j’ai rapidement rencontré trois problèmes:

La plupart des modèles sont incroyables sur des images photoréalistes ou de style anime, mais pas idéales pour les panneaux en noir et blanc.
La cohérence du caractère était un cauchemar – générer le même caractère à travers les panneaux était presque impossible.
Ces modèles sont tout simplement trop énormes pour les GPU grand public. Il n’y avait aucun moyen d’exécuter quelque chose comme un modèle de paramètre 12B comme Flux sur ma configuration.

J’ai donc décidé de retrousser mes manches et de m’entraîner la mienne. Chaque image de ce post a été générée en utilisant le modèle que j’ai construit.

🧠 quoi, comment, pourquoi

Bien que je sois nouveau dans Genai, je ne suis pas nouveau dans ML. J’ai passé un peu de temps à rattraper le retard – lire des papiers, plonger dans des références open source et essayer de donner un sens au tuyau de feu des nouvelles techniques. C’est beaucoup. Mais après quelques fouilles, Pixart-Sigma s’est démarqué: il frappe bien au-dessus de son poids et n’est pas un cauchemar à courir.

Finetuning Bigger Models était hors de budget, donc je me suis engagé dans celui-ci. Le grand obstacle était la cohérence des personnages. Je sais que la solution habituelle est de former une Lora, mais honnêtement, cela semblait un peu circulaire – comment dois-je entraîner une Lora sur un nouveau personnage si je n’ai pas encore assez d’images de ce personnage? Et aussi, j’ai besoin de former une nouvelle Lora pour chaque nouveau personnage? Non, merci.

J’ai été inspiré par Diffsensei et Arc2 et a fini par prendre un itinéraire différent: j’ai utilisé des intégres à partir d’un Encodeur de personnage de manga pré-formé comme conditionnement. Cela signifie qu’une fois que je générerai un personnage, je peux extraire son intégration et générer plus de ce personnage sans rien entraîner. Il suffit de tomber dans l’incorporation et de partir.

Avec cela résolu, j’ai collecté un ensemble de données d’environ 20 millions d’images de mangas et de Pixart-Sigma finetuné, ajoutant quelques modifications pour permettre le conditionnement sur plus que des invites de texte.

🖼️ Le résultat final

Le résultat est un modèle de génération d’images de mangas léger qui se déroule en douceur sur les GPU grand public et peut générer de l’art manga noir et blanc assez décent à partir d’invites de texte. Je peux:

Spécifiez l’emplacement des caractères et des bulles de la parole
Fournir des images de référence pour obtenir des caractères cohérents à travers les panneaux
Gardez le tout accrocheur sans avoir besoin de supercalculateurs

Vous pouvez jouer avec https://drawatoon.com ou téléchargez les poids du modèle et exécutez-le localement.

🔁 limitations

Alors, comment ça marche bien?

Dans l’ensemble, la cohérence des personnages est étonnamment solide, en particulier pour la couleur et le style des cheveux, la structure du visage, etc., mais elle lutte toujours avec la cohérence des vêtements, en particulier pour les tenues détaillées ou uniques et d’autres accessoires. Des tenues simples comme les uniformes scolaires, les costumes, les t-shirts fonctionnent mieux. Ma suggestion est de concevoir vos personnages pour être simples mais avec différentes couleurs de cheveux.
Lutte avec les mains. Soupir.
Bien qu’il puisse générer des caractères de manière cohérente, il ne peut pas générer les scènes de manière cohérente. Vous avez généré une pièce et vous voulez la même pièce mais sous un angle différent? Je ne peux pas le faire. Mon hack a été de présenter la scène / le réglage une fois sur une page, puis de passer à des gros plans de personnages afin que l’arrière-plan ne soit pas visible ou la focalisation centrale. Je suis sûr que la cohérence de la scène peut être résolue avec IMG2IMG ou la formation d’un ControlNet, mais je n’ai plus d’argent à dépenser pour cela.
Divers rapports d’aspect sont pris en charge mais chaque panneau a une résolution fixe – 262144 pixels.

🛣️ Feuille de route + quelle est la prochaine étape

Il y a encore des trucs à faire.

✅ Les poids du modèle sont open-source sur la face étreinte
📝 Je n’ai pas encore écrit des instructions d’utilisation appropriées – mais si vous savez comment utiliser PixartSigMapipeline dans les diffuseurs, tout ira bien. Ne vous inquiétez pas, je vais écrire des documents de configuration complets dans les prochains jours, afin que vous puissiez l’exécuter localement.
🙏 Si quelqu’un de confort ou d’autres écosystèmes d’outillage veut intégrer cela, veuillez aller de l’avant! J’adorerais le voir dans ces pipelines, mais je n’en connais pas assez pour aider directement.

Enfin, j’ai construit drawatoon.com Ainsi, les gens peuvent tester le modèle sans rien télécharger. Depuis que je paie les GPU de leur poche:

Le serveur dort si personne ne l’utilise – donc la première image peut prendre une minute ou deux pendant qu’elle tourne.
Vous obtenez 30 images gratuitement. Je pense que cela vous suffit pour avoir un avant-goût pour que ce soit utile pour vous ou non. Après cela, c’est comme 2 cents / image pour garder les choses durables (sinon n’hésitez pas à télécharger et à exécuter le modèle localement à la place).

J’adorerais entendre vos pensées, vos commentaires et si vous gérez quelque chose de cool avec cela, veuillez partager!

soumis par / u / fumeisama
(lien) (Commentaires)

Source link

(P) un modèle d’ouverture d’ouverture léger pour générer des mangas

Tl; dr

Arrière-plan

🧠 quoi, comment, pourquoi

🖼️ Le résultat final

🔁 limitations

🛣️ Feuille de route + quelle est la prochaine étape

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

# 235 – Michael Mina: Test de covide...

Scientifiques Gene-Hack Spider pour produire de la soie...

(D) L’avenir de la recherche Web peut-il être...

Los Desafíos de la Era de la ‘ia...

# 235 – Michael Mina: Test de covide...

Scientifiques Gene-Hack Spider pour produire de la soie...

(D) L’avenir de la recherche Web peut-il être...

Los Desafíos de la Era de la ‘ia...

L’appareil compatible avec les lycéens dissuade la conduite...

# 418 – Débat Israël-Palestine: Finkelstein, Destiny, M....

La tendance de l’accumulation de Bitcoin augmente à...

Programmation par les pairs alimentée par AI avec...

L’IA d’Elon Musk propose des

Last Week in AI #297

Trump signe de créer une

Tl; dr

Arrière-plan

🧠 quoi, comment, pourquoi

🖼️ Le résultat final

🔁 limitations

🛣️ Feuille de route + quelle est la prochaine étape

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags