Un exercice de frustration

Robotique
Noesis News
mars 23, 2025
0
11
14 minutes de lecture

Il y a un publication sur Facebook anonyme Cela a fait le tour, dans lequel un directeur artistique de studio a tenté d’embaucher des projets d’IA pour faire de l’art, pour découvrir qu’ils n’ont pas été en mesure de réaliser des demandes de révision mineures. Invités à retirer une personne d’une photo ou à corriger les erreurs de perspective, les procureurs rendraient à la place l’art complètement différent, ou avec d’autres changements étranges qui ne correspondaient pas au mémoire. Je crois complètement qu’essayer de réviser l’art généré par l’IA est vraiment frustrant.

Par exemple, j’ai récemment demandé à ChatGpt4:

Veuillez générer une image d’un Tyrannosaurus à l’intérieur d’une boîte. La boîte doit être fermée et le Tyrannosaurus ne doit pas du tout être visible.

J’ai obtenu cette réponse complètement raisonnable:

Il semble que vous demandiez une image qui implique la présence d’un Tyrannosaurus sans le montrer, car il est complètement enfermé dans une boîte. Si le Tyrannosaurus n’est pas visible, quel type de détails ou de thèmes aimeriez-vous souligner sur la boîte ou le cadre pour suggérer la présence du dinosaure?

J’ai confirmé:

Pas de Tyrannosaurus visible, juste quelques trous d’air pour son confort.

Et Chatgpt (en utilisant Dall-E3 pour la génération d’images) m’a donné ceci:

Ce n’est clairement pas tout à fait là – c’est une boîte bizarre, et les symboles sur le côté sont particulièrement déroutants. Sont-ils des calmars? Un mouche à mouche perchante? Épingles roulantes?

Chatgpt a une fonction où vous pouvez effacer certaines parties de l’image et soumettre plus de texte décrivant comment il devrait changer ces images. Alors, j’ai bloqué la ligne de symboles et j’ai demandé:

Remplacez ces symboles par une silhouette d’un Tyrannosaurus et le mot "DANGER".

Chatgpt a produit ceci:

Ce qui est en quelque sorte ce que j’ai demandé, mais cela ne ressemble pas vraiment à un Tyrannosaurus. J’ai à nouveau effacé cette partie de la boîte et j’ai demandé plus de révisions:

Le T-Rex devrait faire face au mot "DANGER". Sa silhouette doit avoir un aspect puissant et lourd d’un T-Rex, en particulier dans la tête et le cou.

Chatgpt m’a donné:

Le dinosaure fait face mais il ne fait toujours pas face au mot "Danger" Et ce n’est toujours pas une très bonne silhouette de Tyrannosaurus. J’ai à nouveau demandé des révisions.

Gardez la police foncée lourde, mais revenez à la couleur du texte d’avertissement rouge. Le T-Rex doit encore faire face aux mots, pas loin de lui, et sa mâchoire inférieure est trop lourde.

Chatgpt répond avec:

Qui … non. Cela ne compte pas comme face au texte, la mâchoire inférieure n’est toujours pas bonne, et le mot dit toujours "danger" ou plus comme "dandier"?

Le T-Rex doit être à côté du texte, pas par-dessus. Et qu’est-ce qui se passe avec la bosse très hérissée sur les épaules? Sa mâchoire inférieure est encore beaucoup trop lourde.

Chatgpt a répondu avec ceci:

Ma réponse:

… C’est parfait. Maintenant, pouvez-vous tout garder – les textures, l’éclairage, les matériaux – les mêmes, mais rendre la boîte beaucoup plus grande? En ce moment, il semble que ce n’est que la hauteur du genou. Il doit être suffisamment grand pour contenir un T-Rex.

Révision de Chatgpt:

Il semble que plus je demande des révisions, plus le résultat devient pire. Si je lui permette de réviser toute l’image, l’ensemble du processus recommence.

Voici un processus de révision similaire, cette fois en essayant de réviser mon chemin vers des tartes plus jolies.

Moi: Veuillez générer une image d’une girafe entrant dans le Grand British Bakeoff.

Révision 1: J’ai effacé le comptoir et j’ai demandé que la girafe fasse une tarte aux cerises avec un treillis complexe.

Vous trouverez ci-dessous la révision 5, date à laquelle il devient évident que plus je demande un réseau de treillis complexe, plus il devient susmentionné, plus je demande une tarte à vaisselle profonde, plus la tarte est mince, et plus je vous prie pour une seule tarte, plus je reçois de tartes.

Et quand je ne limite pas mes modifications à une partie spécifique de l’image, j’obtiens de bien meilleurs résultats mais aussi une réinitialisation énorme. Pour l’image ci-dessous, j’ai demandé à Chatgpt / Dalle3 de garder chaque détail exactement le même, mais pour le faire pour que nous puissions voir qu’il pleut à l’extérieur de la tente. Non seulement cela a complètement changé l’image, mais il ne pleut même pas.

Dans cette image, j’ai demandé un serpent faisant une peinture d’un ours, puis effacé la peinture et demandé que l’ours soit debout à quatre pattes. La révision est bien pire.

Voici un autre exemple, dans lequel j’ai demandé un cerf dans une épicerie, puis j’ai demandé que le cerf soit à la place un faon. Par révision 5 (essayant de donner les taches Fawn, essayant de réparer les ombres qui le faisaient apparaître), à la fois la qualité du cerf et de l’arrière-plan de l’épicerie se sont détériorées.

Voici un one-shot, dans lequel j’ai demandé à Chatgpt / Dall-E3 pour générer une fresque endommagée de Jésus, puis restaurer la fresque aussi bonne que neuve.

Ainsi, chaque fois que l’IA est invitée à réviser une image, elle recommence ou la rend de plus en plus une catastrophe. Les personnes qui travaillent avec des images générées par l’IA doivent adapter leur vision créative à ce qui sort du système – ou entrer avec une mentalité selon laquelle tout ce qui correspond au mémoire est assez bon.

Il y a aussi le fait que les modèles générateurs d’images rivalisent directement avec les artistes dont le travail a été utilisé pour former ces modèles sans autorisation ni compensation. Et le fait que la formation et la gestion des modèles Grande empreinte environnementale. L’imagerie générée par l’IA est devenue un avertissement qu’une publicité, un résultat de recherche ou un document de recherche est Une arnaque.

Je ne suis pas surpris qu’il y ait des endroits à la recherche d’images de remplissage bon marché qui ne se soucient pas des problèmes avec l’imagerie générée par l’IA. Mais pour tous les autres, je pense qu’il devient rapidement clair que vous avez besoin d’un vrai artiste, pas d’une imitation.

Contenu bonus: Une licorne devient hilarante

Source link

Un exercice de frustration

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Anthropic a laissé un agent d’IA courir une...

Les abonnements en IA en valent-ils la peine?...

Les applications de bureau essentiels pour Android –...

Ce que la NLP nous parle de Covid-19...

Anthropic a laissé un agent d’IA courir une...

Les abonnements en IA en valent-ils la peine?...

Les applications de bureau essentiels pour Android –...

Ce que la NLP nous parle de Covid-19...

Bluebotics lance la «solution de suivi complète» pour...

Système de nettoyage (CIP): un guide complet

Wyoming Attractions en bordure de route – Amérique...

L’évolution de la détection de contenu nuisible: modération...

L’IA d’Elon Musk propose des

Last Week in AI #297

Trump signe de créer une

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags