Un exercice de frustration

Il y a un publication sur Facebook anonyme Cela a fait le tour, dans lequel un directeur artistique de studio a tenté d’embaucher des projets d’IA pour faire de l’art, pour découvrir qu’ils n’ont pas été en mesure de réaliser des demandes de révision mineures. Invités à retirer une personne d’une photo ou à corriger les erreurs de perspective, les procureurs rendraient à la place l’art complètement différent, ou avec d’autres changements étranges qui ne correspondaient pas au mémoire. Je crois complètement qu’essayer de réviser l’art généré par l’IA est vraiment frustrant.
Par exemple, j’ai récemment demandé à ChatGpt4:
Veuillez générer une image d’un Tyrannosaurus à l’intérieur d’une boîte. La boîte doit être fermée et le Tyrannosaurus ne doit pas du tout être visible.
J’ai obtenu cette réponse complètement raisonnable:
Il semble que vous demandiez une image qui implique la présence d’un Tyrannosaurus sans le montrer, car il est complètement enfermé dans une boîte. Si le Tyrannosaurus n’est pas visible, quel type de détails ou de thèmes aimeriez-vous souligner sur la boîte ou le cadre pour suggérer la présence du dinosaure?
J’ai confirmé:
Pas de Tyrannosaurus visible, juste quelques trous d’air pour son confort.
Et Chatgpt (en utilisant Dall-E3 pour la génération d’images) m’a donné ceci:

Ce n’est clairement pas tout à fait là – c’est une boîte bizarre, et les symboles sur le côté sont particulièrement déroutants. Sont-ils des calmars? Un mouche à mouche perchante? Épingles roulantes?
Chatgpt a une fonction où vous pouvez effacer certaines parties de l’image et soumettre plus de texte décrivant comment il devrait changer ces images. Alors, j’ai bloqué la ligne de symboles et j’ai demandé:
Remplacez ces symboles par une silhouette d’un Tyrannosaurus et le mot "DANGER".
Chatgpt a produit ceci:

Ce qui est en quelque sorte ce que j’ai demandé, mais cela ne ressemble pas vraiment à un Tyrannosaurus. J’ai à nouveau effacé cette partie de la boîte et j’ai demandé plus de révisions:
Le T-Rex devrait faire face au mot "DANGER". Sa silhouette doit avoir un aspect puissant et lourd d’un T-Rex, en particulier dans la tête et le cou.
Chatgpt m’a donné:

Le dinosaure fait face mais il ne fait toujours pas face au mot "Danger" Et ce n’est toujours pas une très bonne silhouette de Tyrannosaurus. J’ai à nouveau demandé des révisions.
Gardez la police foncée lourde, mais revenez à la couleur du texte d’avertissement rouge. Le T-Rex doit encore faire face aux mots, pas loin de lui, et sa mâchoire inférieure est trop lourde.
Chatgpt répond avec:

Qui … non. Cela ne compte pas comme face au texte, la mâchoire inférieure n’est toujours pas bonne, et le mot dit toujours "danger" ou plus comme "dandier"?
Le T-Rex doit être à côté du texte, pas par-dessus. Et qu’est-ce qui se passe avec la bosse très hérissée sur les épaules? Sa mâchoire inférieure est encore beaucoup trop lourde.
Chatgpt a répondu avec ceci:

Ma réponse:
… C’est parfait. Maintenant, pouvez-vous tout garder – les textures, l’éclairage, les matériaux – les mêmes, mais rendre la boîte beaucoup plus grande? En ce moment, il semble que ce n’est que la hauteur du genou. Il doit être suffisamment grand pour contenir un T-Rex.
Révision de Chatgpt:

Il semble que plus je demande des révisions, plus le résultat devient pire. Si je lui permette de réviser toute l’image, l’ensemble du processus recommence.
Voici un processus de révision similaire, cette fois en essayant de réviser mon chemin vers des tartes plus jolies.
Moi: Veuillez générer une image d’une girafe entrant dans le Grand British Bakeoff.

Révision 1: J’ai effacé le comptoir et j’ai demandé que la girafe fasse une tarte aux cerises avec un treillis complexe.

Vous trouverez ci-dessous la révision 5, date à laquelle il devient évident que plus je demande un réseau de treillis complexe, plus il devient susmentionné, plus je demande une tarte à vaisselle profonde, plus la tarte est mince, et plus je vous prie pour une seule tarte, plus je reçois de tartes.

Et quand je ne limite pas mes modifications à une partie spécifique de l’image, j’obtiens de bien meilleurs résultats mais aussi une réinitialisation énorme. Pour l’image ci-dessous, j’ai demandé à Chatgpt / Dalle3 de garder chaque détail exactement le même, mais pour le faire pour que nous puissions voir qu’il pleut à l’extérieur de la tente. Non seulement cela a complètement changé l’image, mais il ne pleut même pas.

Dans cette image, j’ai demandé un serpent faisant une peinture d’un ours, puis effacé la peinture et demandé que l’ours soit debout à quatre pattes. La révision est bien pire.


Description de l’image: À gauche, un pieu de couleur arc-en-ciel est enroulé dans la police d’un chevalet. (La bobine du serpent se divise en deux, donc je suppose que c’est un serpent à queue fourche). Sur le chevalet se trouve une peinture d’un ours assis. C’est assez réaliste. À droite, l’ours a été remplacé par une réplique beaucoup plus petite, bien pire du serpent. Il n’y a pas d’ours.
Voici un autre exemple, dans lequel j’ai demandé un cerf dans une épicerie, puis j’ai demandé que le cerf soit à la place un faon. Par révision 5 (essayant de donner les taches Fawn, essayant de réparer les ombres qui le faisaient apparaître), à la fois la qualité du cerf et de l’arrière-plan de l’épicerie se sont détériorées.


Description de l’image: Dans l’image d’origine de gauche, le cerf ressemble un peu à un mannequin en plastique, mais s’adapte à l’éclairage et à l’ombrage avec le reste de la scène de l’épicerie. Dans l’image révisée à droite, le cerf est maintenant un faon avec un ombrage plat étrange, superposé à la scène plutôt que de se tenir dedans. Ses yeux sont étrangement liquides et 3D, mais le reste du faon regarde directement la caméra sans profondeur apparente. Lorsque le fond de l’allée de l’épicerie a été révisé, les étagères ont perdu tous les détails et la ressemblance avec une épicerie, et le luminaire de plafond descend maintenant dans le sol.
Voici un one-shot, dans lequel j’ai demandé à Chatgpt / Dall-E3 pour générer une fresque endommagée de Jésus, puis restaurer la fresque aussi bonne que neuve.



Description de l’image: L’image de gauche semble être une fresque endommagée de Jésus (avec des doigts longs révélateurs qui sont connectés aux deux mains). L’image au milieu est la même, à l’exception du visage et du halo de Jésus, qui ne semblent plus endommagés. Cependant, le visage de Jésus est maintenant étrangement lisse et brillant et ne correspond plus au reste du tableau, et ses yeux sont des spirales bleues et noires étranges. L’image à droite a le visage de Jésus dans un style complètement différent, presque aérographe, et ses yeux ne correspondent plus à distance.
Ainsi, chaque fois que l’IA est invitée à réviser une image, elle recommence ou la rend de plus en plus une catastrophe. Les personnes qui travaillent avec des images générées par l’IA doivent adapter leur vision créative à ce qui sort du système – ou entrer avec une mentalité selon laquelle tout ce qui correspond au mémoire est assez bon.
Il y a aussi le fait que les modèles générateurs d’images rivalisent directement avec les artistes dont le travail a été utilisé pour former ces modèles sans autorisation ni compensation. Et le fait que la formation et la gestion des modèles Grande empreinte environnementale. L’imagerie générée par l’IA est devenue un avertissement qu’une publicité, un résultat de recherche ou un document de recherche est Une arnaque.
Je ne suis pas surpris qu’il y ait des endroits à la recherche d’images de remplissage bon marché qui ne se soucient pas des problèmes avec l’imagerie générée par l’IA. Mais pour tous les autres, je pense qu’il devient rapidement clair que vous avez besoin d’un vrai artiste, pas d’une imitation.
Contenu bonus: Une licorne devient hilarante