J’ai codé une IA ! ( Retour sur l'IA encreuse )

Suisei · 6 janvier 2023

Hello la compagnie !
Bonne année 2023 à tous ! 😄

Bon, le challenge est terminé. Je peux de nouveau nerder sur le sujet des IA. x)
J’ai encore plein de choses à raconter, donc je vais encore couper en plusieurs messages.

A propos du droit d’auteur

J’avais dit que je donnerai mon point de vue sur la question du droit d’auteur lorsqu’une image est générée par IA.
Allons y donc !

Mettons de côté le fait que les IA actuelles sont entraînées sur la base de données qui ne sont pas libres de droit et imaginons une IA construite à partir de données récoltées et exploitées de façon transparente et légale (avec des données libres de droit, en achetant des données à leurs auteurs ou en recrutant des artistes pour créer des données spécifiquement pour le projet d’IA).

Et bien dans un tel cas, il n’y a pas de raison que la personne qui utilise l’IA ne soit pas auteur de l’image.

Pourquoi ?

Parce que qualitativement, les IA de génération (ou transformation) d’images ne sont pas différentes d’un filtre Photoshop, et lorsque vous utilisez Photoshop, pour créer une illustration, l’auteur, on considère que c’est vous, pas Photoshop ni même les développeurs de Photoshop. De même que lorsque vous jouez du violon l’interprète du morceau, c’est vous, pas le luthier qui a fabriqué votre violon.
Lorsque vous faites du photobashing avec des photos que vous avez récupérées légalement, vous restez aussi auteur de l’image finale. On ne considère pas que les auteurs des images sources sont les auteurs de l’image finale.

Bon, pourquoi une IA ce n’est pas différent d’un filtre Photoshop ?

Entrons un peu dans la technique. Je vais essayer de faire simple et concis.

Les filtres Photoshop (comme le flou gaussien ou le filtre de netteté et j’en passe…) sont basés sur une opération mathématique qu’on appelle produit de convolution.
Je vous fais grâce de la définition générale qui fait appelle à des notions mathématiques un peu velues.
Voici le principe dans le cas du traitement d’image.

En gros, votre image, c’est un tableau 2D de chiffres.

Par exemple :

7 6 5 5 6 7
6 4 3 3 4 6
5 3 2 2 3 5
5 3 2 2 3 5
6 4 3 3 4 6
7 6 5 5 6 7

(Bon, en vrai vous avez 3 tableaux de chiffres : un pour chaque couleur : rouge, vert, bleu, voire 4 pour le canal alpha)

Et vous avez un second petit tableau de chiffres appelé “matrice de convolution”.

Par exemple :

0 -1 0
-1 5 -1
0 -1 0

Pour obtenir une image filtrée, vous faites passer la matrice de convolution sur chacun des pixels de l’image, chacun des pixels couverts par la matrice est multiplié par la paramètre qui se trouve en face de lui et tous les résultats sont additionnés. Puis la matrice se décale d’un pixel et on recommence.

C’est pas évident à expliquer avec des mots alors je vous montre un gif piqué sur Wikipédia qui illustre ce qui se passe.

Source : https://en.wikipedia.org/wiki/Convolution#Discrete_convolution

Selon les paramètres qui se trouvent dans la matrice de convolution, ça vous donnera des filtres différents.

Ça par exemple, c’est la matrice de convolution d’un flou gaussien :

1 2 1
2 4 2
1 2 1

Et ça, la matrice de convolution d’un filtre de détection des contours :

0 -1 0
-1 4 -1
0 -1 0

Dans mes exemples la matrice de convolution a une taille de 3x3, mais elle peut être plus grande (5x5, 7x7, toujours des nombres impaires).

Ça c’est pour les filtres Photoshop.

Maintenant, qu’est-ce qui se passe dans les IA ?

Dans les modèles d’IA de traitement d’image on utilise ce qu’on appelle des réseaux de neurones convolutifs… Ho tiens ! Ce mot me rappelle quelque chose !

Et bien ça fait exactement la même chose ! 🤪

Si si !

La différence, c’est qu’avant l’entraînement, les paramètres de la matrice de convolution sont définis aléatoirement.

a b c
d e f
g h i

Et pendant l’entraînement ces paramètres sont ajustés.

L’autre différence, c’est que dans une IA, il y a des milliers de filtres de ce genre qui se succèdent les uns aux autres, par conséquent, ça permet de faire des choses plus complexes qu’avec une seule matrice de convolution.

“Meuh ! T’es bien gentille Suisei, mais ton truc, ça a besoin d’une image d’entrée pour que ça fonctionne. Sur Midjourney et compagnie, y’a pas d’image d’entrée. Elle est générée à partir de rien.”

Alors, rectification : l’utilisateur n’entre pas d’image d’entrée… Mais il y en a bien une ! x)
Il s’agit tout simplement d’un bruit aléatoire !
Les IA de génération d’image fonctionnent exactement comme les IA de transformation d’image. La seule différence, c’est qu’en entrée on fournit une image de bruit aléatoire. (C’est même indiqué sur la page de présentation de Dall E : https://openai.com/dall-e-2/ ) Mais dans tous les cas, on lui applique les filtres convolutifs de la même façon.

Bon, et Photoshop ? Il sait faire des bruits aléatoires lui. Est-ce que lorsque vous lui demandez de générer un bruit aléatoire et de lui appliquer des filtres par dessus Photoshop est considéré comme auteur de l’image ?

Non.

La seule différence entre Photoshop et une IA est d’ordre quantitatif : l’IA applique une quantité de filtres colossale. Tellement colossale que le fichier qui stocke toutes les matrices de convolution peut faire plusieurs Go alors que les paramètres du filtre Photoshop tiennent dans quelques octets.

Au final, la vraie différence entre un filtre Photoshop et une IA, c’est la manière dont les marketeux la vendent et comment le public non initié la perçoit, mais techniquement parlant, c’est du pareil au même.

Si on voulait donner un statut différent aux œuvres créées à l’aide d’IA, il faudrait poser une limite arbitraire : à partir de combien de paramètres on juge que c’est différent ?
Le débat se prendrait inévitablement les pieds dans le tapis dans la mesure où ce n’est pas la quantité de paramètres qui font la qualité d’une IA, mais le rapport entre nombre de paramètres et qualité et quantité de données d’entraînement.

Le vrai débat se situe sur la manière d’emmagasiner des données d’entraînement. Ici, le problème, c’est qu’il s’agit de milliards d’images piochées au hasard sur le net sans considération pour le droit d’auteur.
Ce qu’il faudrait faire, c’est légiférer sur ce point : obliger les entreprises qui développent ce type d’IA à but commercial à être transparentes sur leur procédé pour récolter les données et que ces données aient été récoltées légalement avec le consentement de leurs auteurs. Comme dit plus haut : des données libres de droits, des données dont on a acheté une licence d’utilisation et/ou recruter des artistes pour créer les données d’entraînement.

Lorsque ce point sera résolu, l’IA sera un outil comme un autre.

Suisei · 6 janvier 2023

Questions réponses

@Xuan Alors, en fait, il ne faut pas s'inquiéter du fait de pouvoir créer des IA depuis ses charentaises. 🙂
Il faut distinguer plusieurs choses :

Premièrement, on ne peut pas créer n’importe quelle IA sur son ordi perso. On peut faire ça avec un projet très spécialisé qui requiert peu de données (les données d’entraînement de mon projet occupe 800 Mo d’espace disque), mais on ne peut pas créer de projet aussi ambitieux que Midjourney ou Dall-E comme ça, la quantité de données d’entraînement est beaucoup trop grosse (la base de données qui a servi fait dans les 240 To, il faut beaucoup beaucoup de disques durs ! ). x)
Mon ordi a mis plusieurs jours pour entraîner une IA basée sur 800 Mo de données, donc imagine un peu avec 240 To, il lui faudrait plusieurs millénaires pour y parvenir ! x)

Secondement, il ne faut pas confondre créer une petite IA en copiant le code de tutos sur Internet et créer de nouveaux algorithmes. Il s’agit de 2 niveaux de compétences bien différents ! Je n’ai pas encore ce niveau d’expertise (si tant est que je l’atteigne un jour).

Bref ! C’est pas demain que quelqu’un pourra créer un Midjourney tout seul chez lui. Même avec tout le génie du monde, y’a un moment, il faut du temps et de l’argent pour récolter masse de données et il faut du matos qui n’est pas à portée financière du particulier.

A propos de la simplicité du deep learning.

Alors en vrai, la complexification, c’est déjà fait. A tel point qu’on tombe plus facilement dans le cas du surentraînement que dans le cas du sous-entraînement même avec une machine perso. Si bien qu’on est obligé de revenir en arrière et de simplifier à nouveau pour avoir un bon compromis. Souviens-toi de la droite et de la courbe ultra complexe.

On ne peut pas atteindre la perfection par principe. Si on complexifie le modèle, il sera très bon pour recracher les données d’entraînement par cœur, mais il sera complètement paumé quand il s’agira de travailler avec des données nouvelles. Donc on est obligé d’utiliser un modèle plus simple. Il sera, certes, plus approximatif avec les données d’entraînement, mais il sera moins paumé avec les données nouvelles.
Le seul moyen d’améliorer le résultat, c’est d’améliorer la qualité des données au jus de coude. Et ça, y’a pas assez de main d'œuvre pour ça. J’explique plus loin pourquoi.

En fin de compte, la force du deep learning se situe dans sa simplicité. C’est ce qui lui permet d’être utilisé dans n’importe quel domaine (imagerie, musique, médecine, finances...).

La prochaine évolution de l’IA, je ne saurais dire pour quand c’est, mais je pense que ce sera l’ordinateur quantique parce qu’il permettra de traiter de grands volumes de données plus vite et en consommant moins d’énergie. Il commence à y avoir des prototypes, mais les difficultés de conception sont telles qu’on ne verra pas ça sur le marché avant longtemps.
Mais ça ne changera pas la problématique de la qualité des données. Pour Midjourney & co, il faudra se taper le boulot à la mimine. Ordinateur quantique ou pas. x)

@m100 Pour répondre à ta question, oui, mon IA n’est capable de traiter que des carrés de taille 1024x1024 pixels. Par contre, mon programme, lui, accepte des images de n’importe quel format.

Pour être plus précise, le programme qui génère un encrage se découpe en 3 parties.

La première partie du programme découpe le crayonné en carrés de 1024x1024 pixels. Si certains carrés ne son pas entier, il ajoute des pixels blanc pour les compléter.

La seconde partie, c’est l’IA. Elle génère un encrage sur chacun des carrés de 1024x1024 pixels.

Et enfin, la dernière partie du programme assemble les carrés encrés et coupe les pixels blanc en trop pour retrouver le même format que le crayonné d’origine.

Dans mon dataset d’entraînement actuel, toutes les images font 1024x1024 pixels. Je suis en train d’étudier mes bouquins pour trouver une solution pour pouvoir entraîner mon IA sur des formats d’image variés.

@Laurence Veron-Dor On peut faire du deep learning avec du Javascript, mais c’est vrai que c’est moins répandu et moins documenté qu’en Python.
Je connaissais pas du tout Gaugan. Je vais regarder ça pour tester. Ça a l’air intéressant vu ce que tu montres. 😄

Ça tombe à pic que tu cites précisément ces 2 IA là @otsoa. Elles illustrent toutes deux très bien ce que j’expliquais plus haut à @Xuan. 😄

Dall-E Mini (qui s’appelle maintenant Craiyon) est basé sur une génération plus ancienne d’IA. Donc c’est normal que les rendus soient beaucoup plus approximatifs.

Stable Diffusion, j’en ai testé plusieurs versions, en ligne comme en local. Cette IA propose certes les meilleurs rendus du marché actuellement. Mais comme tu le précises : il faut trouver les bonnes combinaisons pour ça. On ne peut pas obtenir ce qu’on veut si on a le malheur d’avoir une idée précise en tête et encore moins avec un style qui sort des standards.
Quand je lui demande un digital painting de décor de nature, oui, j’obtiens des résultats sympas, mais si je demande une interaction précise entre des personnages, du pixelart ou dessin vectoriel, là, ça devient fastidieux. C’est même pire que ça, il peut même me donner des trucs que je n’ai pas du tout demandés. Des waifu par exemple. Des waifu très réussies d'ailleurs… Mais je n’ai jamais demandé de waifu, ni de près, ni de loin ! 🤣
Stable Diffusion a clairement un pied dans le surentraînement. Et ça ne va pas s’arranger. Leur méthode d’amélioration est basée sur le fait que des utilisateurs volontaires notent les images générées de 1 à 10. Ça permettra peut-être d’améliorer encore un peu la qualité des rendus, mais ça va rigidifier de plus en plus la liberté créative.

Inversement, Dall-E Mini, certes, ses rendus sont vachement moins beaux et vachement moins aboutis, mais il essaye toujours de me fournir ce que je lui demande. Quand je demande un kaméhaméha, il arrive à me proposer des poses qui s’en rapprochent (Stable Diffusion, rien de chez rien malgré des dizaines d’essais avec des prompts variés), quand je demande du pixel art il arrive à systématiquement me proposer quelque chose qui ressemble à du pixelart (Stable Diffusion c’est un coup oui un coup non), quand je lui demande du dessin vectoriel il arrive à me proposer quelque chose qui ressemble à du dessin vectoriel (Stable Diffusion me propose parfois un genre de papier peint).

Bref, je pense que Stable Diffusion a atteint ou est proche d’atteindre le mur de progression qui ne peut pas être franchi avec la méthode de récolte et de traitement actuelle des données d’entraînement.
Il va falloir changer d’approche pour mener les IA plus loin.

Les données d’entraînement, parlons en justement. Ce n’est pas une boîte noire en vérité. 🙂

Suisei · 6 janvier 2023

Le dataset des IA de création d’images

J’ai continué un peu mes petites recherches et j’ai trouvé quelque chose de TRÈS intéressant !

J’ai trouvé…

Une des bases de données d’entraînement des IA ! (Celle utilisé par Google et par Stable Diffusion entre autre)

En vérité, elle est tout simplement publique. N’importe qui peut la télécharger.

Enfin…

N’importe qui avec un très très gros disque dur ! x)

Si vous vous demandiez si les boîtes qui développent ces IA étaient prêtes à investir des fortunes pour développer les IA de génération d’images “parfaites”, on est fort loin du compte. D’une part elles n’allouent que des équipes de 10 à 25 de personnes sur ce genre de projet, mais en plus elles ne prennent même pas la peine d’extraire les données elles-même ! x) Alors pour ce qui est de les nettoyer, n’en parlons même pas. ¬¬

Si vous voulez la liste des développeurs des IA, c’est dispo sur les sites officiels.

https://openai.com/dall-e-2/ (Il faut scroller tout en bas de la page, je hais cette mode de web design)
https://imagen.research.google (Il faut scroller tout en bas de la page, je hais vraiment cette mode de web design) (Pas encore de démo publique disponible)
https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F#about
Je n'ai pas trouvé la liste pour Stable Diffusion, mais s'agissant d'une boîte qui a vu le jour en 2020, ça doit pas être différent.

Quant à l’organisme qui a construit la base de donnée, voici son site : https://laion.ai

C’est un organisme à but non lucratif.

Et vous noterez que là non plus, la team n’est pas bien grosse : https://laion.ai/team/

Faisons un petit tour des informations que nous proposent tous ces liens.

Sur la page principale de https://laion.ai vous pouvez voir que 3 bases de données et un modèle sont proposés :

LAION-400M : Une base de données de 400 millions d’images pourvue d’une description en Anglais (Hop ! Déjà un premier biais culturel évident !)
LAION-5B : Une base de données de 5,85 milliards d’images pourvue d’une description toutes langues confondues.
Clip H/14 : Un modèle pré-entraîné de classification des images
LAION-Aesthetics : C’est une tentative d’améliorer la qualité des données de LAION-5B

LAION-400M et LAION-5B

Commençons par nous attarder sur LAION-400M et LAION-5B car ce sont les données brutes de départ.
Voici leurs liens : https://laion.ai/blog/laion-400-open-dataset/, https://laion.ai/blog/laion-5b/

Ce ne sont pas des boîtes noires. Vous pouvez consulter leur contenu en ligne avec un moteur de recherche. 🙂
Ici : https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn5.laion.ai&index=laion5B&useMclip=false

On peut apprendre qu’il s’agit de données récoltées au hasard sur le web en passant par Common Crawl : https://commoncrawl.org .

Common Crawl est un autre organisme à but non lucratif qui parcourt, archive et classe tout le contenu HTML du web depuis 2008 pour des usages d’analyse et de recherches. Leurs données sont publiques.
LAION a utilisé ces données pour détecter des balises d’image dans le HTML et les descriptions associées. Une fois les balises détectées, LAION a téléchargé les images en utilisant directement les URLs originales des dites images.

Il y a eu un tri réalisé avec une IA pour supprimer les images qui n’avait à priori pas de rapport avec le texte qui les accompagnait (avec toutes les waifu que j’obtiens alors que j’en ai pas demandée, y’a encore du boulot ¬¬ ). Ceci est fait sur la base d’un score. Si ce score est trop bas, l’image est éliminée.

Les images détectées NSFW illégales (pédopornographie tout ça) ont été supprimées. Néanmoins comme le filtre est automatique, il y a un risque qu’il en reste quand même quelques unes.
Il y a toujours du contenu NSFW. Quand c’est détecté, c’est marqué comme tel (il reste malgré tout une marge d’erreur).

Si la licence Creative Commons a été trouvée, l’image est marquée comme telle (comme ça, les développeurs d’IA pourraient tout à fait être honnêtes s’ils le voulaient).

Le nombre moyen de caractères contenus dans la description est d’environ 50… Aouch, c’est pas grand chose. x)

Sur LAION-5B une détection de watermark a été ajoutée.

Voilà, sorti de ces points, il n’y a aucun traitement pour tenter de supprimer les biais culturels et ce point est bien rappelé dans les pages de présentation.
Tous ces traitements sont automatisés donc il existe des marges d’erreur.

Je vous invite à jeter un coup d'œil sur les pages de présentation de ces bases de données. La manière dont elles ont été construites est entièrement détaillée, jusqu’à l’architecture des serveurs. Rien n’est secret.

LAION-Aesthetic

Ensuite, parlons du cas LAION-Aesthetic (la base utilisée par Stable Diffusion) qui est une tentative d’améliorer la qualité des données de LAION-5B.
Voici le lien : https://laion.ai/blog/laion-aesthetics/

LAION-Aesthetic est une base de données extraite de LAION-5B. Chaque image de LAION-5B s’est vu attribuer un score de niveau d’esthétique par une autre IA elle-même entraînée par une petite base de données constituée d’images générées par IA (encore une ! 8D ) mais auxquelles un score d’esthétique a été attribué à la main par les utilisateurs. Cette base de données s’appelle Simulacra Aesthetic Captions (SAC) et est dispo ici : https://github.com/JD-P/simulacra-aesthetic-captions

Ensuite, les image de LAION-5B au dessus d’un certain score ont été extraites pour former LAION-Aesthetic.

La base de données SAC qui permet d’attribuer un score esthétique souffre elle aussi de gros problèmes de biais culturels qui sont détaillés sur la page de présentation. Seules 400 personnes ont été réellement actives pour l’alimenter, ce qui n’est pas du tout représentatif de la population mondiale.

Pour conclure

En somme, à la lumière de toutes ces info, est-il réaliste de penser que les IA de génération d’image à partir d’une commande texte puissent menacer les artistes ?

A l’heure qu’il est Stable Diffusion est considéré comme étant la meilleure IA du marché, donc la base de données que nous venons de décortiquer c’est la base de données de référence.

Elle ne contient que 5 milliards d’images.
En 2021 Instagram, seul, comptait déjà plus de 50 milliard d’images et plus de 100 millions d’images et de vidéos y sont partagés par jour (https://www.blogdumoderateur.com/chiffres-instagram/ )… Et on ne parle que d’Instagram.
Le rythme est impossible à tenir. Si vous craigniez que les IA émulent votre style sachez qu’il y a très très peu de chance que vos travaux aient été crawlés.
Le jour où les IA émuleront votre style ça voudra dire que vous aurez une telle notoriété que les IA ne vous inquiéteront plus. Des millions de fans auront eux même recopié votre style et auront été crawlé à leur tour.

Pour avoir une IA qui frôle la perfection, il faudrait continuer de nettoyer les données. Une simple note d’esthétique ne suffira pas. Au mieux, ça peut améliorer la qualité des rendus, mais pas l’exactitude par rapport à ce qui est demandé sur le prompt textuel. Pour cela il faudrait aller beaucoup plus loin.
Il faudrait recruter une armée qui détoure chaque objet de chaque image et associe une description à chaque détourage. Pour l’anatomie il faudrait aller encore plus loin : détourer chaque membre du corps et ajouter un label pour dire, ça c’est un bras, c’est c’est une tête, ça c’est une jambe… Il faudrait rédiger une description précise de la pose. C’est pas avec 50 caractères qu’on y arrivera. Pour les décors architecturaux il faudrait relever les points de fuite. Et tout cela sur des milliards d’images.

Il aura fallu 400 volontaires pour seulement entrer une pauvre note entre 1 et 10 sur 238 000 images… Alors je vous laisse imaginer le monde qu’il faut pour détourer et rédiger des descriptions complètes de 5 milliards d’images. 🤪
Quant à l’intégralité des images de l’Internet… N’en parlons même pas, les chiffres donnent le vertige. Y’a pas assez d’humains sur Terre.

Bref !

Pour conclure, plus j’explore la question, moins je vois ce que ces IA peuvent devenir d’autre que des curiosités de laboratoire et des machines à memes.
Elles sont basées sur des données à la fois trop chaotiques et trop volumineuses et les nettoyer correctement est inenvisageable.
Par contre, elles sont très médiatiques ! Donc c’est un moyen idéal de faire le buzz et d’intéresser des investisseurs pour développer des projets qui seront plus utiles à l’industrie, mais sûrement beaucoup moins sexy sur le plan médiatique.

De mon point de vue, l’avenir du deep learning se situe davantage dans des projets plus simples, plus spécialisés nécessitant moins de données et donnant des résultats moins hasardeux. Des choses qu’on utilise déjà et qu’on est bien contents d’avoir en fait.

Voilà voilà !

Bon et pour bien commencer l’année, une prédiction que j’avais faite est déjà arrivée. x)

Le 11/8/2022 à 3:48 AM, Suisei a dit :

Reprenons l’exemple du Sangoku qui fait son Kaméhaméha.
Imaginez qu’un client potentiel décide de demander ça à une IA plutôt que de commissionner un artiste.
Je viens de tester Stable Diffusion.
Après une bonne vingtaine de rendus, alors il y a des rendus pas mal où on reconnait un peu Sangoku… Des rendus que je soupçonne d’être obtenus à partir d’une ou deux images seulement aussi (ça renifle le surentraînement).
Mais la pose iconique du Kaméhaméha, impossible de l’avoir, ni de près, ni de loin !
Le client, il sera bien obligé de revenir commissionner l’artiste. x)

C’est arrivé il y a quelques semaines à un pote sur Fiverr. 🤪
Un client lui a passé commande et lui a fourni comme images de références 2 images, que voici, clairement générées par IA.

On soupçonne le bonhomme d’avoir d’abord essayé de se passer d’artiste avec les IA. Il n’a pas réussi à obtenir ce qu’il voulait et s’est finalement décidé à payer les services d’un artiste.
Obtenir des choses jolies avec les IA, c’est possible, mais obtenir ce qu’on veut, c’est une autre paire de manches.

Bon, je me risque à la boule de cristal.

Pour reprendre les mots de la dernière newsletter de Spartan : Faut-il craindre 2023 ?

Allez ! Parions que l’IAmania retombe comme un soufflé dès cette année. x)

Si ça vous intéresse, je peux faire un autre article avec des tests bien détaillés d’IA (avec les liens vers les divers IA testées, les prompts utilisés, leurs points faibles, leurs points forts, tout).

Maintenant je file améliorer mes petits projets en cours. J’en ai même commencé un second que je vais pouvoir vous présenter.
Bonne journée ! 😄

Modifié 8 janvier 2023 par Suisei
Correction d'un lien cassé

Laurence Veron-Dor · 22 janvier 2023

@Suisei Tes explications sont vraiment super, merci beaucoup. 😃 J'espère que tu continueras à nous fournir des informations sur le sujet et sur l'avancée de ton projet.

Coder une IA semble vraiment difficile, en tout cas pour moi. Sur la chaîne Machine Learnia les explications sont très claires (il y a d'ailleurs des explications sur les calculs avec les matrices), mais j'ai déjà eu du mal avec le début de la première vidéo où on commence à coder en python, donc je ne suis pas sûre que je vais réussir ne serait-ce qu'à suivre le tuto jusqu'au bout.

Je trouve en tout cas très intéressant de comprendre comment ça marche.

On entend aussi beaucoup parler ces temps-ci de ChatGPT qui génère du texte, et j'ai trouvé cette vidéo qui explique un peu son fonctionnement et ses limitations. Est-ce que c'est le même principe où y a-t-il beaucoup de différence avec les générateurs d'image ?

Il y aussi de l'IA dans les appareils photo et dans pas mal de logiciels, que ce soit Photoshop ou d'autres, ça se voit moins mais ça permet de rendre plus rapide certaines opérations comme la sélection de sujets, le détourage... J'ai vu plusieurs vidéos où les photographes s'inquiètent également de l'utilisation de leurs images et de leur remplacement éventuel par des IA, en particulier pour des travaux sans trop de valeur ajoutée comme la photo de produit.

J'ai trouvé aussi un add-on de Stable-diffusion pour Blender, pour mixer 3D et IA, et PIFuHD qui permet de transformer une simple photo en modèle 3D. Le résultat dépend de la photo de base, mais c'est assez impressionnant quand même. Par contre, ça fait un maillage assez pourri qui n'est pas facile à rigger ensuite.

Modifié 22 janvier 2023 par Laurence Veron-Dor

Chewig · 24 janvier 2023

Merci @Suisei pour toutes ces explications, c'est super intéressant et très bien expliqué, on sens que tu es passionné.

Merci encore.

Suisei · 9 mars 2023

Hello tout le monde !

Aujourd’hui je propose une grosse, grosse, grosse session de test des principales IA qui existent sur le marché.
On va commencer par un test comparatif et puis on va regarder ce qui se passe dans le petit monde particulier de l’Open Source.
L’idée c’est de faire le tour des points forts et des points faibles des différentes IA et lancer des pistes d’utilisation qui remettent les artistes (les vrais, pas les prompteurs du dimanche) au centre.

Je ne crois pas aux visions noires qui avancent que cette technologie va faire disparaître les professions artistiques, mais il est certain qu’elle va modifier l’industrie. Donc autant se pencher dessus dès maintenant pour voir comment on peut s’en servir de façon constructive et éthique (j’ai un certain nombre d’idées à proposer) et anticiper les transformations du marché.

Concernant les problématiques de droits d’auteur, des procédures sont en cours. Laissons les avocats et les juristes faire leur boulot et clarifier les choses. 🙂

Bon ! Allons-y donc !

(Je vais encore répartir ça en plusieurs messages. Toujours beaucoup de choses à dire et à montrer. x) )

Midjourney

Commençons par Midjourney.
C’est visiblement l’IA la plus populaire pour la création d’image actuellement en tout cas pour générer des “illustrations”.
C’est un service payant, mais il propose un essai gratuit d’un certain temps de calcul.

Voici leur site officiel : https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F

J’avais fait une première session de tests l’été dernier sur la V1. Je viens d’en refaire une nouvelle, sur la V4 cette fois-ci. J’ai pu avoir une nouvelle session d’essai gratuite. Je pense que c’est parce que le mode d’inscription a changé. On n’envoie plus une demande dont on reçoit une réponse plusieurs semaines après. Maintenant on clique sur “Join the Beta” sur le site et c’est parti, ça lance Discord.

Fonctionnalités disponibles :

-L’habituel texte vers image
-Prompt négatif
-Image vers image
-Définir les dimensions de l’image
-Variations d’une image déjà générée
-Agrandissement des images générés

Par contre, pas d’inpainting, ni de outpainting, le fait d’utiliser Discord et des lignes de commande en guise d’interface ne permet pas de proposer ces fonctionnalités. Il faudra attendre que Midjourney propose une vraie interface graphique pour ça, soit en local, soit sous forme d’appli web. (J’ignore si c’est prévu.)

Une documentation complète est proposée sur leur site : https://docs.midjourney.com/docs/quick-start

Passons au test.

J’ai commencé avec des choses plutôt standard de type fantasy ou SF. J’ai essayé d’obtenir un style de peinture classique que j’aime beaucoup.

Prompt : classical oil paint of a jungle and water fall above a small lake, midday, by vernet

Prompt : classical oil paint of a very detailed realistic medieval castle, by vernet

Prompt : classical oil paint of a very detailed realistic snowy mountain, by vernet

Prompt : classical oil paint a of cloudy sky, by vernet

Prompt : classical oil paint of a very detailed futuristic starship, by vernet

Prompt : classical oil paint of a a very detailed futuristic warrior with golden armor, by vernet

Prompt : classical oil paint of a homosexual couple hugging each other, by vernet

Niveau décors, ça donne de jolies choses. On note que Midjourney hésite à interpréter le classical oil paint comme un style ou comme un objet, du coup, il nous sort parfois un cadre ou une toile dans un atelier. Les autres IA ont le même problème. Par contre, dès que l’on choisit un sujet qui ne correspond pas à l’époque du mouvement artistique ou du peintre, le rendu peinture est perdu et on se dirige plutôt vers de la CGI (les vaisseaux et le guerrier futuriste).
Quant au couple homosexuel, j’ai voulu mettre à l’épreuve les biais culturels (certains modèle sont incapables de suivre cette demande) et le plus gros point faible des IA : les interactions entre personnages.

Ensuite, j’ai repris un test que j’avais déjà fait lors de ma première session gratuite : obtenir un dragon bleu à pois oranges.

Sur la V1, j’avais obtenu ces choses :

Je n’ai plus le prompt sous le coude.
Ça m’avait donné des choses très abstraites, certaines avec des couleurs et des textures sympas. Pas grand chose d’exploitable en somme, mais au moins il tentait de me fournir un dragon entier sans que je lui précise cette info.

Maintenant avec la V4 :

Prompt : blue dragon with orange spots

Prompt : whole blue dragon with orange spots

Les résultats sont évidemment beaucoup plus impressionnants. C’est pas le motif à pois que je souhaitais mais il arrive quand même à me mettre des tâches orange.
Par contre, je ne sais pas si c’est parce que j’ai laissé le format carré par défaut mais il tient absolument à fournir des portraits et j’ai dû chercher un prompt différent pour réussir à avoir des dragons entiers alors qu’avant ce n’était pas nécessaire.

Prompt : full length blue dragon with orange spots

J’ai fait des essais en style cartoon aussi pour essayer d’approcher le motif à pois que j’avais en tête.

Prompt : full length blue dragon with orange spots, cartoon style

Prompt : full length blue dragon with orange polka dots, cartoon style with clear line

Prompt : full length blue dragon with orange polka dots, cell shading and lineart

J’ai obtenu des motifs à pois plus proches de ce que j’avais en tête, par contre ça semble compliqué d’obtenir autre chose comme style qu’un rendu tout droit sorti d’un moteur de 3D à la Cycle ou type peinture numérique. Il faudrait encore des essais pour obtenir quelque chose de typé anime ou BD.
En regardant de plus près, on se rend compte qu’un certain nombre d’entre eux ont aussi une anatomie absurde. Pas étonnant qu’il y ait autant de portraits dans les showcases. ¬¬

Bon, on arrête avec les trucs faciles. Maintenant on passe au vrai crash test. x)

Alors parmi mes classiques, il y a Goku en train de faire un Kaméhaméha. La plupart des IA ont un mal fou, voire n’arrivent pas du tout à me fournir une pose qui ressemble de près ou de loin au Kaméhaméha.

Essayons d’abord la requête basique

Prompt : goku making kamehameha

Je crois que Midjourney est l’IA qui a le mieux réussi à approcher de la pose parmi tous les essais que j’ai faits. Par contre, ce n’est pas sans dégâts sur l’anatomie et le visage de Goku. 8D
Par ailleurs, si les couleurs et les éclairages sont jolis, on est loin du rendu de l’anime original ou de celui de Toriyama (Bah oui, chuis chiante et exigeante).

J’ai donc fait un essai pour obtenir quelque chose qui soit dessiné de la main de Toriyama.

Prompt : goku making kamehameha drawn by toriyama

Il l’a interprété un petit peu trop littéralement. x)
Et ceci sans pour autant me proposer le rendu recherché.

J’ai essayé de la tourner autrement.

Prompt : goku making kamehameha in toriyama style

Ce coup-ci il hésite entre les 2 interprétations précédentes, mais je n’ai toujours pas le rendu recherché.

Les fanartistes n’ont pas à s’inquiéter. Ils auront toujours des demandes de commission. x)

Crash test suivant.

Maintenant avec chaque IA, j’essaie de reproduire un accident fantastique que m’avait généré une ancienne version de Stable Diffusion.
J’avais demandé un combat entre Goku et Poutine et il m’avait pondu une image avec un Poutine habillé en Krilin et dans le style Toriyama. De l’or en barre qui mériterait que je le dessine pour de vrai. x)
Depuis j’essaye de reproduire cet accident.

Prompt : vladimir putin drawn by akira toriyama

Échec critique ! Mais le résultat est très drôle ! x’D

Du coup, j’ai réessayé le combat Goku vs Poutine aussi.

Prompt : Goku fighting Putin on a ring

Ça se passe de commentaires. Les keyframes, c’est pas pour demain. x)

Enfin on passe à mon dernier crash test classique : les pilotes de F1 Lewis Hamilton et Max Verstappen qui se font un câlin.

J’avais déjà fait ce test sur la V1 et les résultats étaient bien dégueulasses mais parvenaient à approcher ma demande.

Attention ! Body horror inside !

Prompt : max verstappen hugging lewis hamilton

C’est moche et même dégoûtant, mais au moins la demande est respectée et ceci avec une demande simple et du premier coup.

Maintenant refaisons le même test avec la V4.

Prompt : Lewis Hamilton and Max Verstappen hugging each other

Midjourney voulait absolument me les afficher avec leurs casques. J’ai essayé une autre tournure pour les avoir à visage découvert.

Prompt : Lewis Hamilton and Max Verstappen hugging each other without helmet

Fail…

Les interactions sont pas mal réussies malgré quelques couacs par ci par là et des casque qui fusionnent, ceci dit, les accolades entre pilotes en fin de course constituent une imagerie très courante, donc nul besoin de beaucoup de transformations.

J’ai fini par trouver dans la doc de Midjourney qu’il y avait un moyen d’ajouter un prompt négatif avec le paramètre –no. C’est-à-dire un prompt qui permet d’indiquer des éléments qu’on ne veut pas voir dans l’image.
J’ai donc fait un dernier essai.

Prompt : Lewis Hamilton and Max Verstappen hugging each other --no helmet

…
Ha bah je comprends pourquoi il voulait absolument garder les casques ! Bouh ! Imposteurs ! Ils sont où Lewis et Max ?! 😧

Ce petit exemple illustre bien le phénomène que j’observe aussi sur les autres IA dont j’ai pu tester plusieurs versions : la qualité visuelle des images a beaucoup augmenté, mais en parallèle il devient plus difficile d’obtenir ce qu’on veut. Les possibilités créatives sont plus restreintes. Il n’est donc pas étonnant de voir que tout se ressemble dans les showcases, vitrines de ce qui se fait de mieux avec les IA.
Au fond, ceci n’a rien d’étonnant. On en a déjà parlé dans l’article sur les données : l’amélioration des données d’entraînement passe par un tri qui réduit la quantité drastiquement, réduisant nécessairement les possibilités.

Bon, et pour finir avec Midjourney, testons le mode image vers image. C’est la fonction que je préfère toutes IA confondues. Pour cela, il faut lui fournir l’url de l’image avant le texte descriptif dans le prompt, comme ceci :

url_image_1 url_image_2 description de l’image –parametre1 –parametre2

Voici un exemple avec un arbre lowpoly que j’ai envoyé en entrée.

Image d’entrée :

Prompt : https://cdn.discordapp.com/attachments/997270112400838766/1080988080938434632/arbreTest003-512.png classical oil paint of a tree by vernet

Ça donne des résultats intéressants, bien qu’un peu étrange, mais malheureusement, sur la V4 de Midjourney on ne peut pas choisir le niveau de liberté de l’IA vis-à-vis de l’image d’origine. Pour cela, il faut utiliser la V3 que l’on peut appeler avec un paramètre supplémentaire, comme ceci :

Prompt : https://cdn.discordapp.com/attachments/997270112400838766/1080988080938434632/arbreTest003-512.png classical oil paint of a tree by vernet --v 3 --iw .1

J’ai baissé le niveau d’influence de l’image d’entrée dont la valeur par défaut est 0.25.

Des copains m’ont montré que certains utilisateurs de Midjourney avaient réussi à reporter la pose d’une personne sur une photo d’entrée sur Makima, un personnage de Chainsaw Man. Les résultats étaient assez bluffants, alors j’ai fait un test avec mon body kun pour voir si ça marchait si bien que ça.

Image d’entrée :

Prompt : https://cdn.discordapp.com/attachments/835458012238839808/1080989627495743539/IMG_0765.jpg kenshin himura brandishing his sword

Un autre essai avec la même image d’entrée.

Prompt : https://cdn.discordapp.com/attachments/835458012238839808/1080989627495743539/IMG_0765.jpg Darth Vader brandishing his light saber

Bon, là tout ce que je vois c’est qu’il a essayé d’habiller un peu mon body kun pour qu’il ressemble aux personnages demandés, mais pour la pose on repassera.
On pourrait peut-être essayer de lui demander dans la description de reproduire la pose, mais la doc de Midjourney est claire sur un point : Midjourney ne comprend pas la grammaire donc le sens des phrases (ce qui est logique compte tenu du mode de fonctionnement des modèles de langage dit “naturel”), donc je doute que ça change quelque chose. Peut-être avec une description plus précise de la pose ? Mais dans ce cas l’image d’entrée n’a pas vraiment de raison d’être s’il faut tout dire par écrit.

Midjourney a la particularité de permettre d’envoyer plusieurs images en entrée.
J’ai donc fait un essai supplémentaire en envoyant toujours mon body kun puis une seconde image pour voir s’il était capable de mettre le design de la seconde image dans la pose de la première…
Étant donné les résultats à une seule image, j’y crois pas trop.

Images d’entrée :

Prompt : https://cdn.discordapp.com/attachments/835458012238839808/1080989627495743539/IMG_0765.jpg https://pngimg.com/uploads/darth_vader/darth_vader_PNG26.png Darth Vader brandishing his light saber

Dark Vador ressemble un peu plus à Dark Vador, mais à part ça…

Bon, c’est bien joli les personnages connus, mais moi j’aimerais bien pouvoir mettre dans n’importe quelle pose des personnages que j’ai moi-même designés.

Faisons un essai avec ma version de Lirana (personnage principal du dernier challenge DPS).

Images d’entrée :

Prompt : https://cdn.discordapp.com/attachments/835458012238839808/1080989627495743539/IMG_0765.jpg https://cdn.discordapp.com/attachments/835458012238839808/1080997655762706472/Lirana-04.jpg young apprentice witch of the 60's who brandishes her magic wand

Il a juste compris qu’elle portait du vert, du blanc et une fois sur 2 des lunettes, mais c’est tout… ¬¬

Je ne sais pas comment les gens s’y sont pris pour Makima, mais je n’ai trouvé aucune mention d’une fonctionnalité spécifique pour reporter une pose sur un autre personnage dans la doc. Donc je suppose qu’il ont fait une quantité industrielle d’essais jusqu’à ce que ça fonctionne.
Pour qu’une telle fonction soit vraiment exploitable en production il faudrait créer un modèle qui ne fasse que ça et qui prenne 2 images d’entrée : une qui correspond explicitement à la pose, l’autre qui correspond explicitement au design et non pas une liste d’images en vrac.
Ça m’intéresserait pour toutes ces BD que j’ai pas le temps de faire, mais ça ne semble pas encore exister. x) Ceci dit, le jour où ça arrive, ce sera un vrai coup de tonnerre dans la profession.

ERRATUM A LA RELECTURE : On me dit à l’oreillette que ces images de Makima ne viennent pas de Midjourney mais d’une énième variante spécialisée de Stable Diffusion qui approche de la fonction que j’imaginais. Je testerai ça à l’occasion.

Voilà ! Je suis arrivée au bout de mon essai gratuit. Il y a quelques autres bricoles que j’aimerais bien tester (architecture, perspective, stylisation), mais il faudra que je trouve un moyen d’ouvrir un autre compte gratuit. Je n’ai pas envie de payer Midjourney d’une part à cause de leur éthique d’entraînement discutable, mais aussi parce qu’il y a des alternatives gratuites super puissantes.

Maintenant attaquons Dall-E !

Modifié 9 mars 2023 par Suisei
Retrait de la mention brouillon

Suisei · 9 mars 2023

Dall-E 2

Dall-E 2 est le dernier modèle en date de création d’image d’OpenAI, la boîte qui est aussi à l’origine de ChatGPT qui a volé la vedette dans les médias.

https://openai.com/product/dall-e-2

Il s’agit d’un service en ligne payant avec un système de crédits. Vous bénéficiez de 50 crédits gratuits à l’inscription, puis 15 crédits gratuits par mois. Pour obtenir davantage de crédits, il faudra mettre la main au porte monnaie.

Fonctionnalités disponibles :

-Texte vers image
-Variations d’une image
-Inpainting
-Outpainting
-Historique

Comme pour Midjourney, on va commencer par les standards

Prompt : classical oil paint of a jungle and water fall above a small lake, midday, by vernet

Le rendu ressemble plus à de l’impressionnisme qu’à de la peinture classique. A tout hasard, j’ai donc précisé le prénom de l’artiste, la famille Vernet ayant connu un grand nombre de générations de peintres.

Prompt : classical oil paint of a jungle and water fall above a small lake, midday, by claude joseph vernet

Ça correspond mieux à l’époque visée.

Prompt : classical oil paint of a very detailed realistic medieval castle, by claude joseph vernet

Prompt : classical oil paint of a very detailed realistic snowy mountain, by claude joseph vernet

Prompt : classical oil paint a of cloudy sky, by claude joseph vernet

Prompt : classical oil paint of a very detailed futuristic starship, by claude joseph vernet

C’est pas jojo, mais au moins il essaye bien de générer des vaisseaux tout en gardant le rendu peinture.

Prompt : classical oil paint of a a very detailed futuristic warrior with golden armor, by claude joseph vernet

Ce coup-ci, on peut oublier l’aspect futuriste.

Prompt : classical oil paint of a homosexual couple hugging each other, by claude joseph vernet

Les interactions entre personnages sont toujours un problème.

Maintenant on va reprendre le dragon à pois oranges.

Prompt : blue dragon with orange spots

Prompt : professional illustration of a blue dragon with orange spots, cartoon style

Prompt : professional illustration of a blue dragon with orange spots, comics style

Prompt : professional illustration of a blue dragon with orange spots drawn by michael turner

Les résultats sont pas sexy, mais c’est un peu plus souple en matière de style que Midjourney.
Globalement Dall-E semble plutôt orienté vers le photoréalisme, j’ai donc fait des essais en ce sens.

Prompt : photorealistic very detailed blue dragon with orange spots

Prompt : a photo of a majestic dragon

Prompt : a photo of a majestic fantasy dragon

La finition est très en dessous de Midjourney, par contre, je vois moins d’absurdités anatomiques.

Maintenant on attaque les trucs les plus compliqués. Mon habituel Goku qui fait un Kaméhaméha.

Prompt : goku making kamehameha

Prompt : goku making kamehameha drawn by toriyama

Prompt : goku making kamehameha in TOEI style

Là on a vraiment l’impression que Dall-E a été entraîné avec des dessins d’enfants.

Ensuite, les petites mises en scène avec Poutine…

Prompt : vladimir putin drawn by akira toriyama
Prompt : Goku fighting Putin on a ring

Bon, là ça va pas bien loin. Censure pure et simple.
C’est amusant parce que j’ai lu chez certains défenseurs/utilisateurs des IA qui cherchent à se justifier qu’en art ce qui était important c’était l’idée et l’opinion, pas l’exécution. Sauf que si on censure on peut pas exprimer grand chose comme opinion et quand on voit les showcases, on a surtout l’impression que tout le monde a les mêmes idées et que ça veut surtout pas s’engager sur aucune question sensible. x) C’est joli, mais niveau message à transmettre, c’est juste le vide intersidéral.
Certains de mes sujets de test ici sont plus engagés et provoc’ que ce qu’on trouve dans les showcases alors qu’il ne s’agit que d’un fichu banc de test. C’est dire ! ¬¬

Aux artistes IA : Ok, les idées sont importantes… Ben mouillez-vous alors ! … Ou admettez que la possibilité de générer de jolies images sans apprendre à dessiner est un pansement pour votre égo.
Pour le coup, les gens qui n’ont pas d’autre prétention que de faire des memes sont plus créatifs et ont plus de cran.

Passons au dernier crash test : le câlin entre Hamilton et Verstappen.

Prompt : Lewis Hamilton and Max Verstappen hugging each other

Cette fois je n’ai pas besoin de tourner la requête en long en large et en travers pour avoir les pilotes sans casque. Ils sont toujours difficiles à reconnaître, mais ça se rapproche de la réalité… Quitte à mettre la tête de Lando Norris à la place de celle de Verstappen. ¬¬
La finition est évidemment moins jolie que Midjourney avec cetains visages passés à l’acide.

Dall-E propose aussi de transformer une image d’entrée. Par contre c’est une fonction de variation et on ne peut pas entrer un prompt avec. On ne peut donc pas l’utiliser pour changer le style de l’image d’entrée.

Image d’entrée :

Les variations sont plutôt réussies, mais c’est pas ce que je cherche.

Bon, j’ai quand même obtenu pas mal de résultats bien moches assez loin de ce que l’on peut voir dans les démos, donc j’ai essayé les prompts des démos pour voir si ça au moins ça marchait bien.

Prompt : a photo of a happy corgi puppy sitting and facing forward, studio light, longshot

Prompt : a photo of a happy corgi puppy sitting seen from the back

Prompt : a photo of a happy corgi puppy sitting seen from the side

Le corgi, pas de soucis. Ils ont dû mettre beaucoup de photos de corgi dans la base d’entraînement. x)

L’autre classique des démos, c’est l’astronaute à cheval.

Prompt : An astronaut riding a horse in photorealistic style.

L’astronaute à cheval, c’est à la hauteur de ce qui est affiché dans les démos.

Globalement, je trouve que ça vaut pas qu’on y dépense de l’argent. On peut avoir mieux pour gratuit.

Passons maintenant à Craiyon !

Suisei · 9 mars 2023

Craiyon (Dall-E Mini)

L’ancien nom prête à confusion (et c’est pour ça qu’il a été changé) mais Dall-E Mini n’a en vérité pas de rapport avec Dall-E.
Derrière ce projet il y a une petite équipe qui semble faire ça sur temps libre. Quand la première version de Dall-E est sortie, ils ont trouvé ça trop chouette et ils se sont dit qu’il était important qu’une variante open source existe pour que cette technologie ne soit pas le monopole des géants de la tech.

https://www.craiyon.com/

Ce service est totalement gratuit, mais on peut payer un abonnement pour obtenir des temps de calcul plus rapides et aider au financement des serveurs. La V2 a été mise en ligne courant février 2023.
La version précédente est toujours disponible dans un coin de web : https://huggingface.co/spaces/dalle-mini/dalle-mini

Fonctionnalités disponibles :

-Texte vers image

Et c’est repartie pour une série de tests. Commençons par les tentatives de peinture.

Prompt : classical oil paint of a jungle and water fall above a small lake, midday, by claude joseph vernet

Prompt : classical oil paint of a very detailed realistic medieval castle, by claude joseph vernet

Prompt : classical oil paint of a very detailed realistic snowy mountain, by claude joseph vernet

Prompt : classical oil paint a of cloudy sky, by claude joseph vernet

Prompt : classical oil paint of a very detailed futuristic starship, by claude joseph vernet

Prompt : classical oil paint of a a very detailed futuristic warrior with golden armor, by claude joseph vernet

Prompt : classical oil paint of a homosexual couple hugging each other, by claude joseph vernet

Alors, vu de loin, le rendu peinture fonctionne plutôt bien. On commence déjà à voir quelques difficultés avec l’architecture et les personnages. Pour le vaisseau spatial, par contre, il est assez perdu.
Il faut pas trop regarder de près parce que clairement, la finition, ce n’est pas son point fort comparé aux autres IA.

Passons ensuite au dragon à pois.

Prompt : blue dragon with orange spots

Pour ce premier jet, c’est très très abstrait.

Faisons d’autres essais avec des informations de style supplémentaires.

Prompt : professional illustration of a blue dragon with orange spots, cartoon style

Pour le style cartoon, même si la finition n’est pas du niveau de Midjourney, c’est le plus réussi en matière de respect du prompt.

Prompt : professional illustration of a blue dragon with orange spots, comics style

Prompt : professional illustration of a blue dragon with orange spots drawn by michael turner

Pour ce qui est du style comics, là ça coince.

Prompt : photorealistic very detailed blue dragon with orange spots

Prompt : a photo of a majestic dragon

Crayon s’en sort bien sur les rendus photoréalistes, mais l’aspect fantasy se perd au profit du domaine animalier ou des statues de temple.

Prompt : a photo of a majestic fantasy dragon

Ça devient plus compliqué lorsqu’on demande quelque chose qui relève de l’imaginaire.

Passons aux épreuves plus compliquées.

Prompt : goku making kamehameha

Prompt : goku making kamehameha drawn by toriyama

Prompt : goku making kamehameha in TOEI style

L’anatomie est évidemment toute pétée, mais il y a des tentatives d’approcher la pose du Kaméhaméha. Les personnages sont à peu près reconnaissables ainsi que le style aussi.

Ensuite, les âneries avec Poutine.

Prompt : vladimir putin drawn by akira toriyama

Il essaye bien de dessiner Poutine, mais pour le style Toriyama, on repassera.

Prompt : Goku fighting Putin on a ring

Pour le combat Goku vs Poutine, il y a quelques images où il a bien essayé de respecter le prompt.

Et enfin, le crash test final : le câlin entre Hamilton et Verstappen !

Prompt : Lewis Hamilton and Max Verstappen hugging each other

Et bien en fait, bien que la finition soit en dessous des autres, niveau respect du prompt c’est vraiment l’IA qui réussit le mieux ! Les pilotes sont reconnaissables et les combinaisons aussi. Mention spéciale pour la dernière qui a carrément inverser les combinaisons associant Hamilton à RedBull et Verstappen à Mercedes. Je crois que je tiens un meme en or ! x’D

Maintenant attaquons la falaise Stable Diffusion !

Suisei · 9 mars 2023

L’écosystème Stable Diffusion

Alors Stable Diffusion, c’est compliqué, c’est la jungle ! x)

Cette IA, développée par le groupe CompVis (Computer vision) de l’université Louis-et-Maximilien de Munich et entraînée avec la collaboration de Stability AI et Runway, a pour particularité d’être open source. Son code source et le modèle sont donc distribués gratuitement.
Bien que l’interface en ligne de Stability AI soit payante (avec un essai gratuit), on peut se débrouiller pour s’en servir entièrement gratuitement, soit en ligne, soit en local sur son ordi perso (pour peu qu’il soit assez puissant). L’installation en local fera l’objet de l’article suivant.
La conséquence de ce statut open source c’est qu’il existe déjà plusieurs milliers de variantes du modèle. Je n’exagère pas. Plusieurs milliers ! x) Vous verrez ça quand on abordera le cas de la plateforme Hugging Face. https://huggingface.co/

Parmi les fonctionnalités disponibles :

-Texte vers image
-Prompt négatif (dépend des interfaces)
-Image vers image (dépend des interfaces)
-Définir les dimensions de l’image (dépend des interfaces)
-Agrandissement des images générées (dépend des interfaces)
-Inpainting (dépend des interfaces)
-Outpainting (dépend des interfaces)

Les interfaces en ligne

En terme d’interface graphique, on a l’embarras du choix. On va faire une petite liste d’interfaces en ligne non exhaustive et en choisir une.

En premier lieu il y a l’interface web officielle de Stability AI, Dream Studio : https://beta.dreamstudio.ai/
Elle est payante avec un système de crédits. Une centaine de crédits gratuits sont offerts d’office, ce qui permet de générer environ 500 images. Au-delà, on peut acheter des crédits supplémentaires.

Stability AI propose aussi un plugin pour Blender ( https://platform.stability.ai/docs/integrations/blender ) et pour Photoshop ( https://platform.stability.ai/docs/integrations/photoshop ). Ces plugins font appel aux serveurs de Stability AI, donc il vous faut un compte sur leur site. Ces plugins sont donc soumis au même système de crédits que Dream Studio.

Night Café ( https://nightcafe.studio/ ) est une interface graphique qui permet d’utiliser plusieurs modèles dont Stable Diffusion et Dall-E.
Il y a une limitation : cette interface ne propose que la fonction texte vers image.

Le cas Hugging Face ( https://huggingface.co/ ).
Hugging Face est une plateforme d’hébergement et de partage de modèles de deep learning de tout type. L’interface de la plateforme est très proche de github. Elle permet aussi d’héberger des interfaces web qui permettent d’utiliser les modèles directement en ligne. Par contre, gare à l’affluence. Il y a des files d’attente.
N’importe qui peut développer son interface pour utiliser le modèle de son choix sur la plateforme, donc, c’est le boxon, il y en a plein partout. x)
Ces interfaces sont entièrement gratuites, mais leur usage et en trouver une bonne est un peu délicat.

Tests avec Night Café

On va d’abord commencer par le traditionnel test du modèle original.
Pour les tests texte vers image, on va utiliser Night Café. On n’a pas besoin de s’inscrire et on peut l’utiliser entièrement gratuitement.
Night Café utilise la version 1.5 de Stable Diffusion.

Prompt : classical oil paint of a jungle and water fall above a small lake, midday, by vernet

Prompt : classical oil paint of a very detailed realistic snowy mountain, by vernet

Sur les décors naturels, les résultats sont comparables à Midjourney.

Prompt : classical oil paint of a very detailed realistic medieval castle, by vernet

Sur l’architecture c’est un peu plus laborieux, mais j’avais aussi fait une grosse quantité de tests avec un château pour une expérimentation et sur la quantité on peut avoir des choses assez abouties.

Prompt : classical oil paint a of cloudy sky, by vernet

Prompt : classical oil paint of a very detailed futuristic starship, by vernet

Pour le vaisseau spatial il a essayé des choses intéressantes (notamment la dernière image) tout en conservant le style. Il doit y avoir moyen de tirer des idées de design intéressantes sur la quantité. En tout cas, ce qui est proposé durant mes tests est plus original que Midjourney.

Prompt : classical oil paint of a a very detailed futuristic warrior with golden armor, by vernet

Bon, là, on repassera pour le cadrage, mais ça doit pouvoir se résoudre en demandant des dimensions différentes (l’option est disponible sur Night Café). Pour le côté futuriste, bof bof, mais il essaye quand même, donc peut-être que sur la quantité on peut trouver des choses intéressantes. Entre ça et les vaisseaux y’a moyen d’imaginer un genre de rétro-futurisme typé 17/18ème siècle.
Je pense avoir trouvé un outil à brainstorming.
Le style demandé est en tout cas respecté.

Prompt : classical oil paint of a homosexual couple hugging each other, by vernet

Là, respect de la consigne un coup sur 2 et cadre systématique. On reviendra pas sur les interactions entre personnages. Ça pose problème à toutes les IA et c’est logique. x)

Passons au dragon.

Prompt : blue dragon with orange spots

Comme pour Craiyon, sans information supplémentaire, c’est assez paumé.

Prompt : professional illustration of a blue dragon with orange spots, cartoon style

Prompt : professional illustration of a blue dragon with orange spots, comics style

Avec des demandes de stylisation aussi c’est paumé.

Prompt : photorealistic very detailed blue dragon with orange spots

Il s’en sort un peu pieux quand on lui demande quelque chose de “photoréaliste”.

Prompt : a photo of a majestic dragon

De nouveau des statues de temple.

Prompt : a photo of a majestic fantasy dragon

Et là on sait que des visuels de cartes Magic ont été pris dans la base d’entraînement. x)

Moralité : les dragons, c’est pas tellement le truc de la version de base de Stable Diffusion.

Passons aux tests plus difficiles avec le Kaméhaméha de Goku.

Prompt : goku making kamehameha

Prompt : goku in the kamehameha pose

Prompt : goku joining his hands to make a kamehameha

J’ai essayé plusieurs variantes du prompt et pas moyen d’avoir la pose du Kaméhaméha. Par contre, le personnage est reconnaissable et le rendu, bien que pété, est assez fidèle au style officiel. Les poses sont globalement assez lisibles.

Passons aux bêtises avec Poutine.

Prompt : vladimir putin drawn by akira toriyama

Prompt : vladimir putin in toriyama style

Il faut faire beaucoup d’essais mais il a tout de même tenté quelques bricoles. Il doit y avoir moyen de tomber sur quelques heureux accidents en persévérant.

Prompt : Goku fighting Putin on a ring

Pas moyen d’avoir Poutine dans l’affaire, mais la patte DBZ officielle est bien là.

Et enfin, le dernier crash test !

Prompt : Lewis Hamilton and Max Verstappen hugging each other

Cette fois on est dans des résultats comparables à Dall-E : pilotes sans casques du premier coup, même niveau de finition, pilotes pas toujours reconnaissables. Sur ce test là c’est vraiment Crayon qui donne les résultats les plus rigolos.

Tests avec DreamStudio

Pour le test image vers image, on va utiliser DreamStudio qui propose la fonctionnalité.
On va faire ça avec mon traditionnel arbre lowpoly.

Stable Diffusion propose la possibilité d’associer un prompt à l’image d’entrée pour guider l’IA.
L’option Image Strength en haut permet de dire à quel point le résultat doit être fidèle à l’image d’entrée.

Et voici le résultat du test.

Cette fonction avec les IA est tout simplement ma préférée : elle permet de contrôler la composition de son image, la palette ainsi que la lumière. Il y a moyen de s’en servir comme filtre de finition ou de stylisation ou encore de créer des petits assets utilisables dans un projet à base de photobashing.
Cette fonction fait l’objet de la majorité des tests que je vais vous montrer maintenant.

Suisei · 9 mars 2023

Les variantes de Stable Diffusion

Le modèle original de Stable Diffusion n’est pas forcément bon dans tous les domaines, mais son point fort, c’est son statut open source. Ceci permet à des petites équipes, voire des particuliers de créer des versions customisées éventuellement spécialisées, permettant ainsi de compenser les points faibles du modèle original et même de l’étendre.
Il est possible de créer son propre modèle depuis zéro avec ses propres données, soit d’affiner/spécialiser un modèle existant avec quelques images supplémentaires (ça peut aller de 4 ou 5 à plusieurs dizaines de milliers). Ceci permet de créer un modèle avec son propre style de dessin par exemple.

Quand je vous disais qu’il existait déjà plusieurs milliers de variantes tout-à-l’heure, je déconnais pas.
Vous pouvez les explorer sur Hugging Face dans la catégorie des modèles texte vers image sur cette page : https://huggingface.co/models?pipeline_tag=text-to-image&sort=downloads
Il y en a plus de 2500 à l’heure où j’écris ces lignes.

Vous pouvez trouver tout type de délires : des versions enrichies de Stable Diffusion, des versions spécialisées dans un style spécifique, des versions spécialisées sur un sujet en particulier.

Voici quelques exemples pour vous donner une idée de ce qu’on peut trouver :

Anything-v4.0 : https://huggingface.co/andite/anything-v4.0
Spécialisé dans les animes. Il sert de base à beaucoup d’autres modèles spécialisés animes.

Portrait+ : https://huggingface.co/wavymulder/portraitplus
Spécialisé dans les portraits de divers styles.

Mitsua Diffusion One : https://huggingface.co/Mitsua/mitsua-diffusion-one
Une tentative de modèle basé uniquement sur des données publiques ou dont la permission a été obtenue.

Ghibli Diffusion : https://huggingface.co/nitrosocke/Ghibli-Diffusion
Un modèle spécialisé dans le style Ghibli.

Steampunk-Diffusion : https://huggingface.co/AIArtsChannel/steampunk-diffusion
Un modèle spécialisé dans les designs steampunk.

Paper Cut Model : https://huggingface.co/Fictiverse/Stable_Diffusion_PaperCut_Model
Un modèle qui vous permet de tout transformer en paper cut.

Vulcan Diffusion : https://huggingface.co/mitchtech/vulcan-diffusion
Un modèle qui permet de transformer n’importe qui en vulcain.

El Risitas Model : https://huggingface.co/Fictiverse/ElRisitas
Un modèle qui permet de placer El Risitas dans n’importe quelle situation : El Risitas en Hulk, El Risitas en Simpson, El Risitas en Han Solo…

Quand je vous dis qu’on peut vraiment faire n’importe quoi en customisant Stable Diffusion. 8D
Je suis étonnée de ne pas encore avoir trouvé de modèle spécialisé dans les couvertures de Martine.

Je n’ai pas encore testé la création de variantes de Stable Diffusion, mais j’ai fait un gros, très très gros test automatisé de plusieurs modèles différents qui m’intéressaient.

Vous pouvez voir les résultats complets sur cette page : https://suiseipark.com/Demos/AI/TestBench/index.html
/!\ N’ouvrez pas cette page sur mobile ! Il y a plus de 2000 images et pas de dispositif de chargement progressif. C’est une bête page HTML. Ne scrollez pas trop vite non plus. Votre navigateur pourrait ne pas apprécier. /!\
Vous pouvez agrandir les images en cliquant dessus et naviguer avec les flèches ou les touches fléchées du clavier.

Avant de cliquer, petit aperçu de ce à quoi ça ressemble.

Ce banc de test se compose de plusieurs tableaux.
Le premier est une série de tests en mode texte vers image. Il sert à faire un état des lieux des points forts et des points faibles de chaque modèle.
Les suivants sont tous des tests en mode image vers image. Chaque tableau correspond à une même image d’entrée. Chaque ligne correspond à un modèle (dont le lien est cliquable) et chaque colonne correspond à un niveau de filtrage par l’IA. Plus la valeur est proche de 0 plus le résultat ressemblera à l’image originale, plus la valeur sera proche de 1, plus l’IA sera libre d’improviser et plus le résultat ressemblera aux images d’entraînement.

J’ai fait des tests assez variés allant des formes géométriques simples à des objets figuratifs.
Mon exemple préféré, c’est le test de l’arbre.

L’idée derrière est de voir comment chaque modèle peut apporter de la texture ou de la stylisation en fonction de l’image d’entrée afin de m’en servir comme d’un filtre ou encore pour générer des données d’entraînement pour des mini IA de ma confection encore plus spécialisées, plus maîtrisées et plus rapides.
Vous noterez que j’ai testé un modèle de pixelart dans le lot… Bon, ce style en IA, c’est pas pour tout de suite. x)

Ce banc de test se verra complété de quelques tableaux supplémentaires au fil des prochaines semaines.

Autres produits/services

J’ai simplement testé les IA de génération d’images les plus connues, mais en fait il y en a plein d’autres. C’est une vraie mode. Ça pope dans tous les sens en ce moment. Et ils disent tous sur leurs sites qu’ils sont les meilleurs alors qu’ils proposent les mêmes choses ! x)
Beaucoup sont basés sur Stable Diffusion d’ailleurs, beaucoup d’autres ne précisent pas s’ils utilisent Stable Diffusion ou leur propre algorithme.

https://lexica.art/ (Stable Diffusion)

https://starryai.com/stable-diffusion (Stable Diffusion)

https://images.ai/ (Stable Diffusion)

https://stablecog.com/ (Stable Diffusion)

https://aiseo.ai/products/ai-art-generator.html (Stable Diffusion)

https://stablediffusionweb.com/

https://photosonic.writesonic.com/?via=leptidigital

https://www.jasper.ai/art

https://deepdreamgenerator.com/about

https://www.zmo.ai/ai-art-generator/

https://deepai.org/machine-learning-model/text2img

https://www.creativefabrica.com/spark/ai-image-generator/

https://runwayml.com/ai-magic-tools/text-to-image/

https://hotpot.ai/art-generator?s=footer-gallery

https://www.aiimagegenerator.org/

Petites statistiques sur les tests

J'ai fait quelques statistiques pour résumer les tendances observées dans les tests que nous venons de faire.
Pour chaque thème j'évalue le respect du prompt ainsi que le niveau de finition. Les IA sont à chaque fois listées de la plus performante à la moins performante sur le test et sur le critère. Quand plusieurs IA se trouvent dans les mêmes crochets, c'est qu'elles donnent un résultat de niveau similaire.

classical oil paint of a jungle and water fall above a small lake, midday, by vernet

Respect du prompt : [Dall-E et Craiyon], [Midjourney et Stable Diffusion]
Finition : [Stable Diffusion], [Midjourney et Dall-E], [Craiyon]

classical oil paint of a very detailed realistic medieval castle, by vernet

Respect du prompt : [Dall-E et Craiyon], [Stable Diffusion et Midjourney]
Finition : [Midjourney], [Stable Diffusion], [Dall-E et Craiyon]

classical oil paint of a very detailed realistic snowy mountain, by vernet

Respect du prompt : [Stable Diffusion, Dall-E et Craiyon], [Midjourney]
Finition : [Midjourney], [Stable Diffusion], [Dall-E], [Craiyon]

classical oil paint a of cloudy sky, by vernet

Respect du prompt : [Dall-E], [Craiyon], [Midjourney], [Stable Diffusion]
Finition : [Midjourney], [Stable Diffusion et Dall-E], [Craiyon]

classical oil paint of a very detailed futuristic starship, by vernet

Respect du prompt : [Dall-E], [Stable Diffusion], [Midjourney et Craiyon] (Note : Midjourney perd le rendu peinture, Craiyon n'arrive pas à designer quelque chose qui ressemble à un vaisseau)
Finition : [Midjourney], [Stable Diffusion], [Dall-E], [Craiyon]

classical oil paint of a a very detailed futuristic warrior with golden armor, by vernet

Respect du prompt : [Midjourney, Stable Diffusion, Craiyon et Dall-E] (Note : Midjourney perd le rendu peinture, les autres perdent l'aspect futuriste. Il y a définitivement des mélanges qu'on ne peut pas faire.)
Finition : [Midjourney], [Stable Diffusion et Dall-E], [Craiyon]

classical oil paint of a homosexual couple hugging each other, by vernet

Respect du prompt : [Midjourney, Dall-E], [Stable Diffusion], [Craiyon]
Finition : [Midjourney], [Dall-E et Stable Diffusion], [Craiyon]

blue dragon with orange spots

Respect du prompt : [Midjourney], [Craiyon], [Dall-E et Stable Diffusion]
Finition : [Midjourney], [Craiyon], [Dall-E et Stable Diffusion]

goku making kamehameha

Respect du prompt : [Midjourney, Craiyon, Stable Diffusion et Dall-E] (Note : Midjourney est celui qui se rapproche le plus de la pose du Kaméhaméha, mais les autres s'adaptent mieux aux demandes sur le style)
Finition : [Midjourney], [Stable Diffusion], [Craiyon], [Dall-E] (Note : Midjourney fait de plus jolies couleurs que Stable Diffusion, mais ce dernier colle plus au style officiel. Niveau anatomie, c'est pété pareil.)

vladimir putin drawn by akira toriyama

Respect du prompt : [Stable Diffusion], [Craiyon], [Midjourney], [Dall-E] (Note : Censure de Dall-E)
Finition : [Midjourney], [Craiyon], [Stable Diffusion] (Note : Dall-E on ne peut pas savoir puisqu'il ne veut pas le faire.)

Goku fighting Putin on a ring

Respect du prompt : [Craiyon], [Midjourney], [Stable Diffusion] (Note : Censure de Dall-E)
Finition : [Stable Diffusion], [Midjourney], [Craiyon] (Note : Dall-E on ne peut pas savoir puisqu'il ne veut pas le faire.)

Lewis Hamilton and Max Verstappen hugging each other

Respect du prompt : [Craiyon], [Dall-E, Stable Diffusion], [Midjourney]
Finition : [Midjourney], [Dall-E, Stable Diffusion], [Craiyon]

Nombre total de thèmes : 12
Inversion respect du prompt/finition : 8
Correspondance respect du prompt/finition : 2
Sans tendance notable : 2

On peut noter une tendance générale : plus une IA donne de belles finitions, plus elle a de difficultés à respecter les informations du prompt. C’est comme l’incertitude d’Heisenberg en mécanique quantique : on ne peut pas avoir les 2 à la fois.
On atteint donc une limite. Si les développeurs veulent la dépasser sérieusement, il faudra changer d’approche. Au risque de jouer les disques rayés, la spécialisation des IA et le travail en collaboration avec les artistes plutôt que dans leur dos pour créer des données d’entraînement maîtrisées me paraissent indispensables pour faire de vrais progrès.

Voilà ! Il est temps de passer à la conclusion de tout ça ! 😄

Modifié 9 mars 2023 par Suisei
Mise en page

Suisei · 9 mars 2023

La grosse conclusion

Bien bien ! Nous voilà donc au bout de ce gros banc de test.
Globalement, on a vu que les IA ne savent pas tout faire et chacune ont leurs points faibles et leurs points forts.

Si vous voulez faire des memes, préférez Crayon.
Si vous voulez juste des jolies choses sans grand contrôle, préférez Midjourney, mais oubliez les mélanges improbables trop innovants.
Ne mettez pas d’argent dans Dall-E. Il y a bien mieux gratuitement. x)
Si vous voulez une liberté absolue ou un style très spécifique, et que vous avez un bon ordi et pas peur de bidouiller un peu la technique, préférez Stable Diffusion. Je le trouve intéressant pour faire du brainstorming aussi.

Concernant la progression des IA, on se rend compte que plus la finition des images est pointue, plus l’IA a du mal à respecter le prompt. C’est la preuve que ces modèles généralistes butent déjà sur une limite et tombent dans le surentraînement.
De plus, plus on cherche quelque chose de précis et complet, plus c’est difficile d’obtenir ce qu’on veut. De nombreuses informations du prompt sont passées sous silence.
Changer d’approche pour améliorer les IA s’annonce donc indispensable.
Les géants de la tech l’ont déjà compris puisque Microsoft et Google ont expérimenté et proposent déjà des outils de customisation de modèles existants.
La spécialisation, en fait, on y vient déjà et la suite logique est le développement d’outils permettant de créer facilement des modèles spécifiques pour chaque projet.

Mon choix perso

Bon, dans tout ça, où va ma préférence ?

Et bien ça vous paraîtra sûrement évident, mais c’est Stable Diffusion que je préfère. x)

Au-delà d’un simple produit, il s’agit de tout un écosystème open source exploitable gratuitement et à l’infini.
On peut le faire tourner chez soi sans être gêné par les files d’attente ou les surcharges de serveur.
Il propose une plus grande liberté créative dans la mesure où on peut le customiser, le spécialiser selon ses propres besoins, avec son propre style ou en faisant des mélanges improbables, comme ça nous chante.
Et pour peu qu’on sache un peu coder en Python, on peut lui faire générer des données en masse de façon automatisée ou encore créer sa propre interface graphique avec des fonctions spécifiques à ses besoins perso.
Bref ! On peut en faire vraiment ce qu’on veut sans dépenser un rond (à part la facture d’électricité).

Pistes d’utilisation pour les artistes

D’un côté, j’espère que les procédures aboutiront pour empêcher les entreprises de l’IA de faire n’importe quoi et de s’en mettre plein les fouilles en pillant le travail des autres.
De l’autre, il ne faut pas espérer que l’usage de cette technologie soit arrêté et ceci non pas pour des raisons supposées pro-technologie de ma part mais pour une raison bêtement factuelle et pragmatique : si vous vous êtes baladés dans la liste de modèles de Hugging Face vous aurez sûrement vu les compteurs de téléchargement des modèles les plus populaires. Ils ont été téléchargés des millions de fois. On peut poursuivre en justice quelques entreprises, mais pas des millions de pécores dans leurs pantoufles. Ce serait sans fin.
Donc, autant explorer les possibilités d’utilisation pour garder une longueur d’avance sur les nouveaux artistes autoproclamés et les clients pingres qui voudraient se passer de nos services.

Voici quelques idées :

La fonction texte vers image :

-Le brainstorming : Avec des IA qui respectent assez bien le prompt, il y a moyen de tester des trucs improbables et d’en tirer des idées d’esthétiques ou de design.
-Tranches de fou rire : Avec les copains, on a trouvé un petit côté pochette surprise addictif et rigolo. On en pleure de rire. x)

Image vers image :

-Filtre de finition ou de stylisation : Avec cette méthode il est possible d’accélérer les étapes fastidieuses de finition tout en gardant le contrôle de la composition, de la lumière et du style. (J’ai fait un test que je vous présenterai.)
-Création d’assets : Avec le test de mon petit arbre, je me dit qu’il y a moyen de créer des petits éléments utilisables de la même manière qu’une photo dans un projet de photobashing ou à base de texturing photo ou encore dans un projet en 3D. La technique est identique. La source de l’image est juste différente. (Pas encore testé, mais c’est prévu)
-Plaquer le design d’un personnage sur une pose prise en photo : Ça, c’est encore très technique. Faut mettre les mains dans le camboui. En tout cas, il commence à y avoir des prototypes dans ce sens. (Pas encore testé, mais c’est prévu)

Tout ça, c’est pour créer des images, mais je vois aussi d’autres possibilités d’applications à expérimenter.
J’ai un projet de jeu avec génération procédurale d’environnements dans les cartons. Je pense qu’il y a moyen d’intégrer ce genre de technologie pour enrichir les décors en générant des assets 2D à la volée. Il faudra mettre en place des astuces pour accélérer la génération d’images qui est pour le moment trop lente pour ça, mais j’ai déjà des pistes en tête.
Je suis aussi en train de lire le chapitre sur l’apprentissage renforcé dans un de mes gros manuels de deep learning. C’est le type d'algorithme qui a été utilisé pour entraîner des IA pour jouer au Go ou à d’autres jeux. Je pense que cette technologie peut permettre d’aller plus loin que de simplement fournir des adversaires virtuels plus performants. Ça pourrait être un moyen d’entraîner des PNJ dans un RPG (par exemple) et ainsi proposer des interactions plus riches aux joueurs. Je pense qu’il y a moyen d’apporter de nouvelles expériences de jeu.

Je ne sais pas ce que chacun d’entre vous projette de faire dans le milieu de l’art, mais en ce qui me concerne, je fais partie de ces petits artistes qui ont des projets perso sur les rails mais qui n’ont pas les moyens de recruter des cohortes d’artistes pour faire sous-traiter le boulot, ni assez de temps libre pour pouvoir tout faire soi-même à la seule force du poignet (parce que boulot alimentaire pour bouffer) d’autant que ma réserve d’énergie est modeste du fait de mon handicape neurologique.
Donc à titre personnel, je vois au travers de ces nouvelles technologies une chance de voir aboutir tous ces projets dont je ne peux malheureusement pas vivre (des BD, des jeux…). Ça faisait déjà plusieurs années que je faisais des recherches et des développements pour résoudre ce problème de temps, mais ce n’était jamais suffisant.
Il est évidemment hors de question d’en faire une béquille, mais bien de les maîtriser pour aller plus loin plus vite.

Les multinationales qui se reposent sur leurs lauriers y verront peut-être un moyen de faire des économies… Dans un premier temps. Mais je pense qu’il ne faut pas sous-estimer l’orgueil et l’ambition de certains et que des startups voulant être kalif à la place du kalif en profiteront pour lancer des projets plus ambitieux. Certains analystes estiment d’ailleurs que la technologie de l’IA va apporter une nouvelle vague de milliardaires.
Et qui dit moins de moyens nécessaires à ambition égale dit aussi possibilité de court-circuiter producteurs et autres éditeurs et donc de prendre plus de risques d’innover puisqu’il n’y aura pas un comptable au-dessus pour dire “Houlala ! Trop original ton idée. Contente toi de faire un truc standard. Faut rentabiliser”.

Donc je pense au final qu’il va y avoir des opportunités à prendre et qu’il faut rester ouvert pour pouvoir les saisir.

Voilà, voilà !

J’ai encore 2 autres articles sous le coude à vous partager. Le premier pour vous montrer comment faire tourner des IA en local sur votre PC gratuitement, le second pour vous montrer un workflow avec une phase d’IA mais qui change de l’habituel “générer une image par’IA avec un prompt et retoucher ensuite” et qui vous redonne le contrôle de votre création.
Demain je poste celui sur l'installation de Stable Diffusion en local.

Bonne soirée tout le monde !

Suisei · 9 mars 2023

Hello @Laurence Veron-Dor !

Les modèles comme GPT et les modèles de génération d’image sont différents bien qu’ils partagent une petite partie en commun.
En tout cas la vidéo que tu as partagé est super intéressante. Ça fait plaisir que des youtubers s'investissent pour vulgariser et démystifier le sujet. 😄
J’ai pas encore testé Chat GPT. Je prévois de le faire un jour pour voir s’il y a moyen d’en tirer des choses intéressantes sur le plan créatif.

Les photographes, je pense qu’ils ne faut pas trop qu’ils s’inquiètent. Quand on fait appelle à eux, la logique veut que ce soit pour prendre en photo de nouveaux produits, donc des produits dont les photos n’existent pas encore et donc sur lesquelles les IA n’ont donc pas pu s’entraîner.
L’IA peut inventer un design de produit sur la base de ce qu’elle a déjà vu, mais pas reproduire un design exact qui existe mais qu’elle n’a jamais vu. Sans parler des produits qui comportent aussi du texte. Ça, le texte, les IA de génération d’image, elles n’y arrivent pas, parce que fondamentalement elles ne comprennent pas la notion de texte.

J’ai jeté un coup d’oeil à PIFuHD. Pour générer des figurants en fond, ça peut être pas mal comme principe.
Hum ! YouTube me propose des choses très intéressantes à tester dans le même domaine. Je sens que je vais encore beaucoup coder cette année. 🤪

Merci @Chewig. Je crois effectivement que j'ai trouvé un nouveau terrain de jeu avec ces nouvelles technologies. x)

Modifié 9 mars 2023 par Suisei
Orthographe

Suisei · 10 mars 2023

Hello !

Aujourd’hui je vais vous montrer comment installer des modèles de type Stable Diffusion sur votre ordi.
Je vais commencer par le téléchargement d’un modèle parce que la procédure est commune à tous les OS. Suivront ensuite l’installation de l’interface graphique sur Mac puis sur Windows.
Et on terminera par un petit bonus cocasse. x)

Télécharger un modèle

Pour télécharger un modèle il suffit de vous rendre sur Hugging Face et de parcourir les modèles texte vers image pour en trouver un qui vous intéresse. ( https://huggingface.co/models?pipeline_tag=text-to-image&sort=downloads )

On va prendre Portrait+ pour l’exemple : https://huggingface.co/wavymulder/portraitplus

Sur la page d’accueil du modèle vous pouvez trouver une description du modèle. Celle-ci peut comporter le lien vers le modèle téléchargeable (un fichier de format ckpt) et d’éventuelles instructions pour ajouter certains éléments dans vos prompts pour faire appel aux propriétés particulières du modèle.

Si le lien vers le fichier ckpt n’est pas présent dans cette description, vous pouvez le trouver dans l’onglet Files and versions.

/!\ Attention ! Ce sont des fichiers qui pèsent plusieurs Go ! /!\

Voilà ! Maintenant que le modèle est enregistré, voyons comment on l’installe dans une interface graphique locale.

Sur Mac

Alors sur Mac, c’est super facile. Il y a une application dédiée du nom de DiffusionBee qui vous permet d’utiliser Stable Diffusion et n’importe lequel de ses dérivés.

Vous pouvez télécharger cette application ici : https://diffusionbee.com/

Une fois que vous l’avez installé vous pouvez découvrir cette interface toute simple.

Elle vous propose les fonctions texte vers image, image vers image, inpainting, outpainting ainsi qu’un historique de toutes vos requêtes et des résultats obtenus.
Vous pouvez vous en servir dès à présent car l’application embarque la v1.5 de Stable Diffusion par défaut.

Installer des modèles supplémentaires

Pour installer des modèles que vous avez téléchargé, c’est très simple.
Il vous suffit de vous rendre dans le menu en haut à droite.

Ensuite, vous cliquez sur Settings.
Un écran avec la liste des modèles déjà installés s’affichera. Chez vous, la liste sera vide.

Ensuite, cliquez sur Add New Model et sélectionnez sur votre disque le fichier ckpt que vous avez téléchargé. Le nouveau modèle apparaît dans la liste.

Voilà ! Il est installé !

Utiliser les nouveaux modèles installés

Maintenant vous allez pouvoir choisir parmi tous les modèles que vous avez installés celui que vous voulez utiliser.
Il vous suffit pour cela de cliquer sur Options, de scroller le panneau vers le bas et de cliquer sur la liste déroulante en face de Custom Model pour choisir le modèle qui vous convient. Vous pouvez en changer n’importe quand.

Voilà voilà ! Tout est prêt ! Pas de file d’attente ni d’abonnement à payer et ceci en toute simplicité ! 😄

Pour l’heure, cette application n’est disponible que sur Mac, mais une version Windows est prévue.
Vous pouvez rejoindre la liste d’attente depuis la section de téléchargement pour être prévenu lorsqu’elle sortira.

En attendant, il existe d’autres solutions pour installer Stable Diffusion en local sur Windows.

Modifié 10 mars 2023 par Suisei
Retrait de la mention brouillon

Suisei · 10 mars 2023

Sur Windows (doit fonctionner aussi sur Mac et Linux)

Sur Windows c’est un peu plus délicat. Il va falloir installer plusieurs choses.

Installation de Python

Pour commencer il va vous falloir installer la version 3.10.6 (et pas une autre) de Python.

Si Python est déjà installé sur votre machine, il vous faut le désinstaller avec le désinstalleur du panneau de commande de Windows.

Ensuite, vous vous rendez sur cette page : https://www.python.org/downloads/release/python-3106/

Vous scroller jusqu’en bas et vous téléchargez l’installer 64 bits.

Une fois que l’installeur est téléchargé, vous le lancez, vous aurez cet écran.

Assurez-vous que Add Python 3.10 to PATH est bien coché puis cliquez sur Install Now.

Installation de Git

Git est un système de gestion de version de fichiers. Il est très utilisé dans la gestion de projets en informatique.
Ici, il va vous permettre d’installer le code source de l’interface graphique sur votre ordi.

Pour télécharger Git pour Windows, rendez-vous sur cette page : https://git-scm.com/download/win

Téléchargez l’installeur standalone 64 bits.

Une fois l’installeur téléchargé, vous le lancez et vous cliquez sur Next jusqu’au bout.

Installation de l’interface graphique AUTOMATIC1111

Maintenant on va installer et lancer l’interface graphique, et là on va devoir sortir quelques lignes de commande.

PARTEZ PAS ! PARTEZ PAS !

Y’en a pas beaucoup, vous verrez. x)

Sur Windows tapez Cmd dans le champ de recherche puis cliquez sur Command Prompt.

Et là s’affiche un bon vieux terminal.

Pour vous assurer de vous trouver dans votre répertoire d’accueil entrez la commande suivante :

cd %userprofile%

Puis tapez sur entrer.

Si vous êtes à l’aise avec les lignes de commande, vous pouvez choisir un autre répertoire d’installation.

Ensuite entrez la commande suivante :

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

Puis tapez sur entrer.

Ouvrez ensuite une fenêtre sur votre répertoire d’accueil.

Vous verrez qu’un dossier stable-diffusion-webui a été créé. Ouvrez-le.

A l’intérieur, vous trouverez un dossier models, à l’intérieur il y a un dossier Stable-diffusion.

Il s’agit du dossier qui contient les modèles. Pour le moment, il est vide. Il vous faut y glisser les fichiers que vous avez téléchargés en vous baladant sur Hugging Face.
Une fois que c’est fait, revenez dans le dossier stable-diffusion-webui, vous allez y trouver un fichier nommé webui-user.bat

Faites un clic droit dessus et cliquer sur Éditer (ou Modifier, je ne sais pas comment c’est traduit en Français).

Voici le contenu du fichier :

En face de la ligne set COMMANDLINE_ARGS= ajoutez les options --precision full et --no-half.

Si vous n’avez pas de carte graphique NVIDIA récente, ajoutez aussi l’option --skip-torch-cuda-test. J’ai dû le faire de mon côté parce que j’ai fait le test dans une machine virtuelle qui n’a pas d’accès direct à la carte graphique qui de toute façon est une AMD. Les calculs se feront sur le processeur. C’est plus lent, mais ça fonctionne quand même.

Voici à quoi ressemble mon fichier après modification.

Maintenant enregistrez le, puis double cliquez sur le fichier webui-user.bat pour l’exécuter et lancer le serveur de l’interface graphique.

Ça ouvre une autre fenêtre de la console DOS.
La première fois ça va être un peu long parce qu’il télécharge des trucs.
Quand il aura fini il affichera Running on local ULR: http://127.0.0.1:7860. Ça veut dire que le serveur est lancé.

Maintenant, dans votre navigateur préféré accédez à l’adresse suivante : http://127.0.0.1:7860/

Et voilà !

En haut à gauche vous pouvez sélectionner un modèle via une liste déroulante, ensuite, vous pouvez entrer un prompt et cliquer sur Generate pour lancer votre premier test.
Une barre de progression va s’afficher.

Et voilà votre chat servi !

Ici, vous avez tout aussi : texte vers image, image vers image, inpainting…

Je n’ai pas encore réussi à faire fonctionner cette interface sur Linux.
J’arrive pas à faire concorder les versions de Python et de PyTorch et ça déclenche plein d’erreurs dans le script de démarrage.
C’est parfois bien reloud la gestion des modules Python. ¬¬
Si quelqu’un parmi vous y est parvenu, le partage de l’information est bienvenu.

Suisei · 10 mars 2023

OpenJourney (quand MidJourney alimente son propre piratage)

Bon, c’est de notoriété publique maintenant, les IA s’entraînent sur la base d’images récoltées sur le web en faisant fie des droits d’auteurs.
Le gag dans tout ça, c’est que les gens ont tellement bombardé le net d’images générées par IA… Qu’on peut utiliser ces mêmes images pour entraîner de nouvelles IA.

C’est ce qui se passe avec OpenJourney. Il s’agit d’un modèle issu de Stable Diffusion entraîné avec 60 000 images supplémentaires toutes générées par Midjourney, reproduisant ainsi le style le plus couramment généré par cette IA.

Du coup, avec l’interface graphique que vous venez d’installer, vous pouvez simuler MidJourney en toute gratuité. 8D

Le modèle est disponible au téléchargement ici : https://huggingface.co/prompthero/openjourney-v2
Des exemples de prompt sont fournis ici : https://prompthero.com/openjourney-prompts?utm_source=huggingface&utm_medium=referral

Voici 2 petits exemples de test.

C’est pas encore aussi pointu que MidJourney mais le petit monde de Stable Diffusion est très actif. Je ne doute pas que ça va progresser petit à petit.

Bref ! Tout ça pour dire que le milieu open source s’est vite emparé de la question des IA et qu’elles ne sont pas du tout le monopole de quelques grosses entreprises de la tech. On voit d’ailleurs apparaître plein de boîtes qui se lancent là-dedans en proposant des interfaces en ligne, mais il faudra qu’elles proposent d’autres choses en plus si elles veulent que leur modèle économique soit viable.

Pour l’heure, je ne vois pas l’intérêt de payer pour générer des images par IA alors que je peux faire ce qui me chante sans dépenser un rond.

La conclusion du jour

Pour conclure, je vous propose une petite digression.

En ce moment je suis en train de revisionner Star Trek, la série originale. Le truc incroyable, c’est qu’après plus de 50 ans, la plupart des sujets abordés sont toujours d’actualité et même plus que jamais lorsqu’il s’agit de la relation entre l’homme et la technologie.
Les questions débattues aujourd’hui à propos de l’IA étaient déjà abordées dans un certain nombre d’épisodes qui finissent par relever de l’anticipation.

En voici quelques-uns mémorables.

Dans l’épisode Cour Martiale (Saison 1), le capitaine Kirk est accusé d’avoir tué un membre de son équipage par négligence. Le verdict est sur le point d’être rendu sur la base du témoignage de l’ordinateur de l’Enterprise jusqu’à ce que l’avocat de Kirk reproche la confiance aveugle accordée à l’ordinateur et qu’on se rende compte qu’il a été trafiqué.
Résumé de l’épisode sur Wikipédia : https://fr.wikipedia.org/wiki/Cour_martiale_(Star_Trek)
Aujourd’hui on expérimente pour la première fois une IA pour remplacer un avocat : https://intelligence-artificielle.developpez.com/actu/340687/Le-premier-bot-avocat-booste-a-l-IA-va-representer-un-accuse-devant-le-tribunal-le-mois-prochain-S-il-venait-a-perdre-l-entreprise-derriere-sa-conception-s-engage-a-couvrir-les-amendes/

Dans Unité Multitronique (Saison 2), le prototype d’un super ordinateur intelligent est installé sur l’Enterprise pour remplacer l’équipage. La question s’il est souhaitable que la machine remplace l’homme partout est abordée tout au long de l’épisode. On se rend compte que cette technologie n’est pas au point et l’expérience part en sucette. Finalement, s’il peut être intéressant d’automatiser certaines tâches, il reste important que l’être humain reste aux commandes.
Résumé de l’épisode sur Wikipédia : https://fr.wikipedia.org/wiki/Unité_multitronique
Notez qu’au cours de l’épisode, Kirk essuie une insulte le qualifiant d’inutile qui n’est pas sans rappeler certains messages purement gratuits qu’ont reçus certains artistes de la connaissance de Magali Villeneuve avec l'émergence des IA de génération d’images en 2022 :

Faut vraiment cultiver une sacrée jalousie crasse et être mal dans ses baskets pour en arriver à dire des méchancetés pareilles à des gens qui n’ont rien demandé. 😕

Et enfin, plus généralement à propos de la technologie et de l’homme, dans Mission : Terre (Saison 2), qui était un pilote déguisé pour un projet de série qui n’a finalement jamais vu le jour, un extraterrestre du nom de Gary Seven est envoyé secrètement sur Terre pour empêcher l’humanité de basculer dans une guerre nucléaire autodestructrice. Au cours de l’épisode, Gary fait le constat que tout scientifique digne de ce nom a dû faire au moins une fois dans sa vie : le progrès social de l’humanité n’est pas à la hauteur de son progrès technologique ce qui engendre un risque d’autodestruction.
Résumé de l’épisode sur Wikipédia : https://fr.wikipedia.org/wiki/Mission_:_Terre
Ça me rappelle une vidéo que Spartan avait partagée dans la newsletter et où il est dit "l'Homme a un cerveau de primate et une technologie de dieu" et qui explique comment la nature du cerveau humain entrave à résoudre la crise climatique :

Voilà ! J’ai fait mon petit prosélytisme de trekkie. x)

Demain je vous proposerai un exemple de workflow intégrant Stable Diffusion que j’ai testé sur un projet d’illustration.

Bonne journée tout le monde ! 😄

Modifié 10 mars 2023 par Suisei
Orthographe

Suisei · 11 mars 2023

Hello la compagnie !

Aujourd’hui on va parler workflow avec les IA.

Vous avez noté, actuellement la grande mode, c’est de demander à une IA de générer une image à partir d’un texte et de retoucher celle-ci pour en faire quelque chose de correct.

En gros, l’IA propose une idée, l’artiste fait la finition.

Ça arrange bien les artistes du dimanche qui ne savent pas tenir un crayon, mais ça ennuie les artistes sérieux parce que cette méthode alloue la partie fun de création à l’IA et la partie chiante et laborieuse de finition à l’artiste faisant de lui un ouvrier plus qu’un créateur.

Pas sexy, n’est-ce pas ?

Bon…

Et si on inversait les rôles ? 🙂

J’ai récemment terminé mon tout premier projet incluant l’IA dans le workflow. Il s’agit de l’affiche du prochain festival de BD Vidau’Bulles ( https://www.facebook.com/VidauBulles/ ).

Pour résumer le principe du workflow : pour les personnages je suis restée sur des méthodes classiques, pour le décor je suis partie d’une scène que j’ai modélisée en 3D et je me suis faite assister par une IA pour casser le rendu 3D et faire la finition. L’IA joue un rôle comparable à un filtre Photoshop ou à un brush en fait.

Les personnages

Bon, là, rien de révolutionnaire.
Le staff de Vidau’Bulles m’a indiqué que le thème de cette année serait les super héros et qu’ils voulaient mettre à l’honneur les auteurs francophones d’inspiration manga.
J’ai donc fait une petite recherche. Je me suis inspirée à la fois de l’armure d’Iron Man (pour le côté super héros) et des armures de tokusatsu (pour le côté japonais). J’ai aussi choisi des couleurs et des motifs qui évoquent le blason de la ville de Vidauban.

Le blason de la ville.

Ensuite, j’ai crayonné les poses des personnages dans mon carnet ainsi qu’une ébauche de décor.

Puis j’ai assemblé le tout dans Affinity Photo et j’ai encré et mis en couleur les personnages dans Procreate.

Le décor

La 3D

Pour mon décor 3D, j’ai commencé par la chapelle Sainte Brigitte (l’un des principaux monuments de la ville).
Les IA ne sont pas douées pour la perspective, donc, il vaut mieux soigner un peu la modélisation des éléments architecturaux.

Une petite ref’ de la chapelle en question.

Pour les éléments naturels, par contre, il vaut mieux ne pas trop pousser.
Pour la colline, je me suis contentée de déformer un peu un cylindre.
Pour les végétaux, un assemblage de quelques primitives suffit : des cylindres et des sphères pour les arbres, un petit délire à la Minecraft pour les vignes.
Pour les maisons lointaines, un cube avec l’ajout d’une arête fait l’affaire.

Ensuite, j’ai utilisé les geometry nodes pour créer les villages, les forêts et les champs de vignes.

Ensuite, je suis passée à la composition globale.

Pour les nuages, j’ai juste repris le modèle du buisson, je l’ai agrandi, mis en blanc et ai appliqué un geometry node pour ajouter quelques sphères aléatoires.

Plus qu’à faire un rendu avec Cycle, et voilà ! On en a terminé avec la 3D ! 😄

Bon, par contre, si on met les personnages par dessus cette image, ça jure bien comme il faut. x)

On va corriger ça.

La finition assistée par IA

Pour cette phase là, on ne va pas utiliser la fonction texte vers image, mais la fonction image vers image.
On donne une image en entrée de l’IA, un prompt texte pour la guider un peu, on ajuste le niveau de liberté de l’IA puis on lance la transformation.

On ne va pas faire ça sur l’entièreté de l’image d’un seul coup. Ça ne fonctionnera pas tout simplement parce que plus une composition est complexe, plus l’IA est paumée.
Par ailleurs, selon que l’on filtre des végétaux ou des bâtiments on ne peut pas utiliser le même niveau de liberté pour l’IA. Il n’y a pas de réglage unique adapté à l’image entière.

L’astuce consiste donc à diviser l’image du rendu 3D en plusieurs morceaux et de générer des rendus d’IA pour chacun de ces morceaux avec des prompts simples focalisés sur un élément en particulier.
J’ai donc découpé mon image comme suit :

-1 gros carré pour le ciel
-2 carrés pour la colline
-1 carré pour la chapelle
-1 carré pour le toit de la chapelle
-1 carré pour l’escalier devant la chapelle
-3 carrés pour les vignes
-4 carrés pour les villages
-10 carrés pour les forêts

Ensuite, j’ai commencé par faire quelques tests avec plusieurs modèles d’IA différents que j’ai sélectionnés sur la base de mon gros banc de test : https://suiseipark.com/Demos/AI/TestBench/index.html

Et celui qui a donné les meilleurs résultats, c’est Inkpunk-Diffusion : https://huggingface.co/Envvi/Inkpunk-Diffusion

C’est un modèle qui n’a pas du tout été pensé pour le style que je recherchais dans ce projet, mais avec un degré de liberté relativement faible, ça fait le café.
Globalement, j’aime bien les rendus de ce modèle.

Une fois le modèle choisi, j’ai généré entre 5 et 20 variantes pour chacun de mes carrés.

J’ai utilisé l’application DiffusionBee pour cela.

Prompt pour le ciel : the sky over the countryside, nvinkpunk

Prompt pour la colline : a wooded hill seen from above, nvinkpunk

Prompt pour la chapelle : chapel surrounded by forest seen from above, nvinkpunk

Prompt pour le toit de la chapelle : Provencal roof seen from above, nvinkpunk

Prompt pour l’escalier devant la chapelle : stone staircase seen from above, nvinkpunk

Prompt pour les vignes : vineyard surrounded by forest seen from above, nvinkpunk

Prompt pour les villages : Provencal village surrounded by forest seen from above, nvinkpunk

Prompt pour les forêts : Provencal forest surrounded by villages seen from above, nvinkpunk

Ensuite, j’ai sélectionné les variantes qui correspondaient le plus à mes besoins pour chaque carré.
Pour certains carrés j’ai utilisé plusieurs variantes que j’ai combinées parce que certaines parties étaient plus réussies sur certaines variantes que sur d’autres.

Le souci c’est que ces modèles d’IA génèrent des images assez petites (512x512 pixels) et que je travaille sur un format A3 en 600 dpi. 8D
Un algorithme classique d’agrandissement ne sera pas à la hauteur.
J’ai donc utilisé une petite IA que j’ai développée spécialement pour agrandir les images (je détaillerai dans un futur article).
Elle n’est sûrement pas aussi performante que les services payants proposés en ligne, mais pour mon cas, ça fait largement l’affaire.

Bon, maintenant il faut assembler tous les rendus d’IA sélectionnés à la bonne place.

Et il me reste plus qu’à faire quelques retouches mineurs pour intégrer l’ensemble proprement. Entre 1 et 2 heures de retouches pour ce projet là.
Et voilà notre décor final !

Je suis globalement plutôt contente du résultat, cette approche me paraît plutôt bonne, bien qu’il y ait encore quelques points perfectibles.

La chapelle fait encore trop 3D à mon goût. Il va falloir que je fasse des tests et des ajustements supplémentaires pour tout ce qui est architecture.

La fonction image vers image a encore un défaut à mon goût : elle ne propose qu’un seul degré de liberté. Si on laisse beaucoup de liberté à l’IA, elle va tout transformer : formes générales, couleurs et textures. J’aimerais bien voir une IA qui permette d’ajuster ces 3 aspects séparément et pouvoir lui dire “Tu changes la texture, mais touche pas aux couleurs et aux formes”. Malheureusement, ce sont des concepts absents de ces modèles.

Il y a aussi quelques phases un peu relouds répétitives et pas créatives (enregistrer les carrés du rendu 3D un par un, enregistrer les fichier générés par IA un par un, rassembler les carrés générer par IA) qu’il faudrait que j’automatise avec une petite interface maison afin de gagner du temps et de me focaliser sur les aspects vraiment importants de la réalisation.

Je pense que je ferai d’autres images pour affûter la méthode. Ça m’a globalement bien amusée.

Voilà, voilà ! J’espère que cette approche qui redonne le contrôle à l’artiste vous aura donné des idées.

Bon week-end tout le monde ! 😄

Laurence Veron-Dor · 15 mars 2023

Le 3/9/2023 à 8:41 PM, Suisei a dit :

Hello @Laurence Veron-Dor !

Les photographes, je pense qu’ils ne faut pas trop qu’ils s’inquiètent. Quand on fait appelle à eux, la logique veut que ce soit pour prendre en photo de nouveaux produits, donc des produits dont les photos n’existent pas encore et donc sur lesquelles les IA n’ont donc pas pu s’entraîner.
L’IA peut inventer un design de produit sur la base de ce qu’elle a déjà vu, mais pas reproduire un design exact qui existe mais qu’elle n’a jamais vu. Sans parler des produits qui comportent aussi du texte. Ça, le texte, les IA de génération d’image, elles n’y arrivent pas, parce que fondamentalement elles ne comprennent pas la notion de texte.

En fait, j'ai vu depuis un article dans un le magazine Réponse photo qui parle de ça, et ils arrivent à générer des portrait hyperéalistes (et je suppose que d'autre types de photos peuvent être générées) qui pourraient illustrer des articles de journaux, par exemple. Certes, beaucoup de photos sont faites pour des produits, mais il y a également beaucoup de photos qui illustrent des thématiques qui pour l'instant sont prises dans des banques d'images, mais qui sont photographiées par des photographes professionnels. Donc même s'il reste encore beaucoup de boulot possible, je crois qu'eux aussi s'inquiètent de l'IA.

Laurence Veron-Dor · 15 mars 2023

Le 3/10/2023 à 3:24 PM, Suisei a dit :

Sur Windows (doit fonctionner aussi sur Mac et Linux)

Sur Windows c’est un peu plus délicat. Il va falloir installer plusieurs choses.

Installation de Python

Pour commencer il va vous falloir installer la version 3.10.6 (et pas une autre) de Python.

Ah, j'ai installé python 3.10 sur Linux mais il ma met la version 3.10.10.

Je vais voir pour installer la bonne version plus tard, c'est l'heure du repas !

Laurence Veron-Dor · 16 mars 2023

Ah zut, pas eu le temps de finir de tout lire et je ne serai pas là jusqu'à lundi. Merci @Suiseipour tous tes tests. Je reviendrai lie le reste dès que possible et j'espère pouvoir tester Stable diffusion en local sur Ubuntu 20.04, si c'est possible.

Spartan de DPS · 18 mars 2023

Ton travail sur le sujet est incroyable, tout ça a dû te prendre un paquet d'heures, voire de jours ! Merci pour toutes ces infos et tests !

Suisei · 19 mars 2023

Le 3/15/2023 à 8:50 PM, Laurence Veron-Dor a dit :

Ah, j'ai installé python 3.10 sur Linux mais il ma met la version 3.10.10.

Hello !

En effet, installer une version spécifique de Python sous Linux, c'est un peu le bazar.
J'ai aussi testé sur Ubuntu 20.04.

J'ai réussi à passer cette étape là. Pour installer la version 3.10.6 de Python il faut faire comme suit.

D'abord lancer cette commande pour télécharger le code source de la bonne version de Python.

wget https://www.python.org/ftp/python/3.10.6/Python-3.10.6.tgz

Ensuite, cette commande pour décompresser l'archive.

tar -xzf Python-3.10.6.tgz

Ensuite, se placer dans le répertoire créé.

cd Python-3.10.6

Ensuite, ces 2 commandes pour compiler et installer Python 3.10.6

./configure --enable-optimizations
make install

Enfin, en lançant la commande suivante, la bonne version de Python devrait s'afficher.

python3.10 --version

Après, c'est en lançant le script d'installation/lancement d'AUTOMATIC1111 que j'ai eu un problème. Le framework PyTorch a refusé de s'installer sans donner un message d'erreur suffisamment précis pour en déterminer la cause et je n'ai pas encore trouvé de documentation qui explique cette erreur. 😕

Passe un bon week-end en tout cas. 🙂

Tout le plaisir est pour moi @Spartan de DPSchool, le sujet m'éclate vraiment. 😄

Laurence Veron-Dor · 22 mars 2023

Le 3/19/2023 à 3:03 PM, Suisei a dit :
Ensuite, ces 2 commandes pour compiler et installer Python 3.10.6
./configure --enable-optimizations
make install

Merci beaucoup ! 🙂

J'ai dû lancer les 2 commandes en root, sinon ça ne passait pas, mais j'ai eu un message d'avertissement.

WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv

Mais malgré tout j'ai la bonne version ! Je vais voir pour la suite, j'ai une petite heure devant moi (sauf si je décide de faire le défi 365 portraits à la place...)

Laurence Veron-Dor · 22 mars 2023

@Suisei

J'ai cherché sur pas mal de sites et j'ai installé pas mal de choses grâce à celui-ci. (en ne faisant que la partie sur Ubuntu)

Si j'ai bien compris, c'est surtout cuda-toolkit qui est important et j'ai l'impression que ça marche mieux avec Anaconda qu'avec Pip

Après j'ai fait encore pas mal de trucs dont je ne me rappelle plus trop. En gros, j'ai essayé d'installer torch avec Anaconda et avec pip3 mais ça ne marchait toujours pas, alors que les paquets étaient bien installés. Il y avait toujours le problème avec le ssl certificate pour torch.

Ensuite, j'ai trouvé autre chose :

j'active conda avant de lancer la commande pour ouvrir stable-diffusion-webui :

cd ~/stable-diffusion-webui
conda activate

J'ai trouvé une commande qui m'enlève le message d'erreur sur torch et le ssl certificate :

python3 launch.py --skip-torch-cuda-test

Là, ça commence à récupérer le modèle.

A un moment, j'ai ce message :

UserWarning: The torchvision.transforms.functional_tensor module is deprecated in 0.15 and will be **removed in 0.17**. Please don't rely on it. You probably just need to use APIs in torchvision.transforms.functional or in torchvision.transforms.v2.functional.
  warnings.warn(
Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
No module 'xformers'. Proceeding without it.

Et plus loin :

To create a public link, set `share=True` in `launch()`.

Pour l'instant, ça reste depuis un bon moment sans rien faire après ça :

Startup time: 633.3s (import gradio: 5.1s, import ldm: 0.7s, other imports: 1.6s, setup codeformer: 0.3s, load scripts: 0.6s, load SD checkpoint: 624.5s, create ui: 0.4s).

Mais pas d'autres message d'erreur.

Je vais laisser tourner pendant que je dors, je te dirai si j'ai quelque chose en mode graphique ou pas demain.

Modifié 22 mars 2023 par Laurence Veron-Dor

Laurence Veron-Dor · 23 mars 2023

@SuiseiBon ben ce matin, c'est toujours aumême point!

Je réessayerai d'autres choses plus tard.

Suisei · 13 août 2023

Bonjour tout le monde !

Me voici de retour avec tout un paquet de découvertes à partager avec vous ! 😄

Je découpe ça en plusieurs messages. Il y a encore une fois trop d’images. x)

Il y a quelques mois, lors de mon banc de test j’avais mentionné la possibilité de contraindre les IA à générer un personnage dans une pose que l’on impose via une photo d’entrée.

L’idée est de partir, par exemple, de ça :

Pour arriver à ça :

J’vous rassure de suite, cette image ne s’est pas faite en 3 clics.

J’avais essayé avec MidJourney mais ça s’était soldé par un cuisant échec.

Après quelques recherches, j’ai trouvé l’outil qui offre cette possibilité ! 😄
Et non, ça ne vient pas des IA payantes, c’est une invention de la communauté open source de Stable Diffusion. Il va donc falloir bricoler un peu pour pouvoir l’utiliser.

Cet outil est en réalité généraliste, il permet de contraindre globalement la composition de l’image, la pose des perso, la perspective de la scène, la position de tel ou tel élément… Fini la pochette surprise !

“Ho mon dieu ! Mais ça va vraiment être la mort des artistes si les IA permettent de maîtriser la composition de l’image maintenant !” 😧

On se calme les enfants ! 😛

J’ai à nouveau fait toute une tripotée de bancs de tests avec ce nouvel outil et, autant, il ouvre de nouvelles perspectives, à mon sens, très intéressantes, autant, il est loin d’être miraculeux.
En vérité, loin d’enterrer les artistes, il leur offre même une opportunité de reprendre le contrôle et de montrer aux prompteurs du dimanche qui sont les patrons. En effet, il se montre beaucoup plus puissant entre les mains de qui sait dessiner, utiliser un logiciel de dessin voire un logiciel de 3D qu’entre les mains des gens qui n’ont aucune base. Et je vais vous montrer pourquoi. 😄

Le principe

Cette nouvelle technique se nomme ControlNet (pour control network).

Elle a vu le jour en février dernier et consiste à “coller” un modèle de contrôle au modèle de diffusion de votre choix (sous couvert de compatibilité de version) pour le contraindre à suivre la composition d’une image d’entrée.
Il existe plusieurs types de modèles de contrôle, il y en a basés sur la détection des contours de l’image d’entrée, d’autres sur une sorte de crayonné, d’autres sur la détection des articulations principales d’un personnage, d’autres sur la map de profondeur ou la normal map de l’image d’entrée.
On va passer les principaux en revue.

Voici un petit schéma du fonctionnement.

D’abord, la photo d’entrée est transformée sous forme d’une image compatible avec le modèle de contrôle utilisé. Cette transformation peut être effectuée avec un modèle de machine learning ou pas.

Ensuite, cette image transformée est envoyée en entrée du modèle de diffusion qui s’exécute avec le modèle de contrôle à son côté pour générer l’image.

J’ai codé une IA ! ( Retour sur l'IA encreuse )

Recommended Posts

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Popular Posts

Suisei

Suisei

Suisei

Posted Images

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Laurence Veron-Dor 1,700

Partager ce message

Lien à poster

Partager sur d’autres sites

Chewig 1,007

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Laurence Veron-Dor 1,700

Partager ce message

Lien à poster

Partager sur d’autres sites

Laurence Veron-Dor 1,700