J’ai codé une IA ! ( Retour sur l'IA encreuse )

Suisei · 8 novembre 2022

Hello, la compagnie !

Je ne souhaitais pas sortir cet article tout de suite car je voulais améliorer un peu mon projet avant, mais comme @Spartan de DPSchool vient de sortir une nouvelle vidéo sur le sujet, je me suis dit que, actu oblige, c’était le bon moment pour casser un peu les mythes et les fantasmes qui tournent autour des IA en apportant un éclairage un peu plus technique.

Vu les projets mis en avant par les médias, il y en a sûrement parmi vous qui imaginent que les IA qui font tant parler d’elles de nos jours sont des monstres de code compliqué à la portée des seules multinationales de la tech.

Que nenni !

On peut développer sa propre IA de génération créative,
tout seul,
chez soi,
dans ses charentaises.

Je ne vous charrie pas, il y a des tas de tutos sur le net et des bouquins sur le sujet dans le commerce ce qui m’a permis de développer la mienne. 😄
Je vous les liste à la fin.

Je vais présenter tout ça en détail et vous allez découvrir que ce qui est en train de bousculer le monde actuel n’est en réalité qu’un bout de code tout con né avant vos parents.
Je déconne pas.

Petit sommaire :

Comment ça marche ?
Le principe de base du machine learning
Le deep learning
Les limites de Midjourney, Dall-E & co
Stratégie pour hacker les IA

Bonjour Péguy !
Le nerf de la guerre : les données d’entraînement
Le résultat actuel
Pistes d’améliorations

L’artiste de demain est-il développeur ?
Une collaboration constructive plutôt qu’une guerre destructrice

Bibliographie

Je découpe ça en plusieurs messages parce que j’ai beaucoup à dire et à montrer.

Modifié 21 mars 2024 par Suisei
Mise à jour du titre

Suisei · 8 novembre 2022

Comment ça marche ?

Pour commencer, faisons une petite précision sur le type d’IA qui fait beaucoup parler de lui de nos jours, il s’agit du deep learning.

L’intelligence artificielle est en réalité un champ d’étude très vaste regroupant des sous domaines qui ont eux-même des sous domaines.
Le machine learning est un sous domaine de l’intelligence artificielle et le deep learning est lui-même un sous domaine du machine learning.

Je vous explique le principe de fonctionnement sans vous assommer avec les détails techniques.
Vous verrez que finalement, qualifier ces algorithmes d’”intelligence” artificielle est un putain d’abus de langage.

Le principe de base du machine learning

Bon, vous allez être un peu surpris mais…

Le machine learning, vous en avez tous fait à l’école sur papier.

Si si !

Je vais vous montrer.

Vous avez sûrement déjà vu ce genre de graphique et on vous sûrement déjà demandé de tracer à la règle une droite qui passe le plus près possible de tout ces points.

Pour l’anecdote je me souviens l’avoir fait en cours de physique au collège. La prof nous avait donné un graphique avec des mesures de la température d’ébullition de l’eau en fonction de l’altitude. Elle nous a demandé de tracer la droite la plus proche possible de tous les points, comme ceci :

C’est une fonction affine de type y = ax + b.

Ensuite, elle nous a demandé de placer 2 points dessus et de mesurer leur position pour calculer les paramètres a et b de la fonction affine et pour finir, à l’aide de ces paramètres calculés, elle nous a demandé de prédire la température d’ébullition de l’eau pour une altitude donnée.

Et bien voilà, le machine learning, ce n’est rien d’autre que ça : utiliser les données récoltées pour calculer les paramètres a et b optimaux pour construire un modèle de type y = ax + b qui soit capable de prédire la valeur de y par rapport à une donnée x avec la marge d’erreur la plus petite possible.

C’est con, hein ? 😄

Comme vous pouvez le voir, la droite n’est qu’une approximation et il est impossible de la faire passer par tous les points. Tout ce qu’on peut faire c’est essayer d’avoir la marge d’erreur moyenne la plus petite possible, mais elle ne pourra jamais tomber à zéro.

Alors on pourrait imaginer un modèle beaucoup plus compliqué capable de passer par absolument tous les points, comme ceci :

Modèle de type

Mais vous voyez bien que ce modèle est complètement absurde par rapport à la réalité de la physique et que si vous ajoutez une nouvelle mesure dans les données, comme ceci :

Et bien la marge d’erreur est même encore plus grande que si vous vous étiez contenté d’une simple droite.
C’est le problème de la généralisation du modèle.

Un bon modèle doit être capable de minimiser les erreurs sur les données d’entraînement, mais tout en les minimisant sur de nouvelles données aussi.
Le travail d’un data scientiste consiste donc à analyser les données et sélectionner un modèle qui propose le meilleur compromis possible entre la précision vis à vis des données d’entraînement et la capacité de généralisation. La perfection est impossible à atteindre parce qu’il y a des fluctuations et du bruit dans les données.

La droite est un exemple. Selon la distribution des données on peut avoir besoin d’un modèle différent, comme ici :

Ici on a un modèle de type et il faut optimiser les paramètres a, b et c.

Voilà pour les bases du machine learning.

La particularité du deep learning, c’est qu’on ne va pas ajuster 2 ou 3 paramètres, mais des millions, voire des milliards de paramètres pour traiter des paquets de données en vrac.
Mais le principe est identique.

Le deep learning

Les schémas que je présente dans cette section sont des captures d’une vidéo de la chaîne Machine Learnia sur le thème du Deep Learning sur Youtube.
Je vous parlerai de cette chaîne dans la bibliographie.

Le premier concept de neurone artificiel a été élaboré par deux mathématiciens, Warren McCulloch et Walter Pitts, en…

1943 !

Je vous avais prévenus que vos parents n’étaient pas encore nés. x)

Rappelons le principe de fonctionnement d’un neurone, un vrai.

En orange, vous avez les dendrites qui sont connectées aux terminaisons d’autres neurones. Elles sont excitées ou non selon que les neurones qui les précèdent le sont ou non.
Si le niveau total d’excitation dépasse un certain seuil, le neurone est à son tour excité et transmet l’information à ses terminaisons (en vert) qui sont elles-mêmes connectées aux dendrites d’autres neurones.

Et bien le neurone artificiel s’inspire du même principe : il fait la somme des signaux x qui peuvent être des données d’entrée ou le résultat d’autres neurones artificiels (on appelle cette étape agrégation), il vérifie que cette somme dépasse un certain seuil, ou pas et si c’est le cas, le résultat y vaut 1, sinon il vaut 0 (c’est l’étape d’activation).

Notez que lors de l’agrégation, toutes les entrées n'ont pas la même influence. Celle-ci est définie par les paramètres w. On appelle cela les poids et c’est de ces poids que dépend la fonctionnalité du neurone.

A l’époque nos 2 mathématiciens suggéraient déjà qu’on pouvait organiser les neurones artificiels en réseau.

Mais il y a un hic !
Ils n’ont pas proposé d’algorithme permettant d’ajuster automatiquement les poids w, ô combien importants pour pouvoir définir la fonctionnalité qui ressortira du réseau de neurones, il fallait donc les définir à la mimine !

L'engouement pour l’IA est retombé comme un soufflet. Pfffft ! 💨

Il faut attendre 1957 avant que ne soit proposé le premier algorithme d’apprentissage automatique du neurone artificiel. L’idée est proposée par le psychologue Frank Rosenblatt et s’inspire toujours du principe de fonctionnement des vrais neurones.

En gros, quand 2 neurones reliés entre eux sont excités en même temps, la connexion entre eux est renforcée. L’algorithme d’apprentissage s’appuie sur cette idée là.

Dans la pratique, avant l’entraînement, on donne une valeur aléatoire à tous les poids w.
Ensuite, on fait passer les entrées x dans le réseau de neurones qui calcule un résultat y.
On compare ce résultat aux données d’entraînement y réelles.
On ajuste les poids w de manière à ce qu’ils donnent un résultat plus proche des données réelles.
Puis on recommence : on fait passer les entrées x dans le réseau de neurones qui calcule un résultat y.
etc etc…

Et ainsi de suite jusqu’à ce que la marge d’erreur ne bouge plus.

Mais il y a encore un hic !

L’algorithme d’apprentissage proposé à l’époque ne pouvait fonctionner que sur une seule couche de neurones, et ne pouvait donc résoudre que des problèmes qui pouvaient être représentés par une droite.

Alors ici, séparer 2 catégories avec une droite pas de problème.

Mais là, par contre, on est comme des cons.

Le soufflet retombe à nouveau. Pffft ! 💨

Il faut attendre 1986 pour que soit mis au point un algorithme d’apprentissage automatique multi-couche sur une idée proposée en 1974, la back-propagation.
Je ne vais pas vous assommer avec des détails techniques, ce sont des math un peu bourrues.
Retenez simplement qu’il s’agit d’un algorithme d’apprentissage qui parcourt le réseau de neurones à l’envers pour pouvoir ajuster les poids (d’où le “back”).
Les étapes restent toujours les mêmes :

Donner une valeur aléatoire à tous les poids.
Faire passer les entrées x dans le réseau de neurones qui calcule un résultat y.
Comparer ce résultat aux données d’entraînement y réelles.
Ajuster les poids w de manière à ce qu’ils donnent un résultat plus proche des données réelles.
Faire passer les entrées x dans le réseau de neurones qui calcule un résultat y.
etc etc…

Si on prend l’exemple d’un réseau de 3 neurones répartis sur 2 couches, on peut déjà résoudre des problèmes plus complexes.

Bon, affichons notre petit réseau de neurones avec les opérations que fait chaque neurone.

Le truc qu’il faut noter quand vous utilisez une IA, c’est qu’à ce moment-là, elle a fini son entraînement.
Les poids w, ils ne bougent plus.
Et donc, qu’est ce qu’il fait, là, le réseau de neurones, quand vous l’exécutez ?
Il fait juste une grosse suite de multiplications et d’additions…

Et c’est tout !

Vous pouvez voir ça comme un méga filtre Photoshop qui fait une opération différente à chaque pixel.
J’ai d’ailleurs testé des IA qui ne faisaient pas mieux que des filtres Photoshop. ¬¬

C’est con, hein ? 😄

C’est fou ce qu’on peut faire avec de simples additions et multiplications.

Comme vous pouvez le voir, le neurone artificiel ne fait que s’inspirer du principe de base des neurones de notre cerveau, il ne les simule pas. Pour cela il faudrait aller bien plus loin, simuler les réactions chimiques selon les types de neurotransmetteurs et bien d’autres choses que mes maigres connaissances en neurologie ne sauraient vous lister… Le bout de code du neurone artificiel est beaucoup trop simple pour prétendre simuler tout ça.
Un réseau de neurones artificiels n’a donc pas grand chose de commun avec un cerveau bien réel.

En fin de compte, dire que ce genre d’algorithme peut développer une conscience c’est un peu comme dire que le blender de votre cuisine peut en développer une aussi.

Bon, alors du coup, si cet algo est aussi vieux et simple, pourquoi ce type d’IA n’explose que maintenant ?

Et bien l’étonnante simplicité du deep learning est aussi son point faible. Outre le fait qu’elle présente, par principe, une limite à la perfection des résultats qu’elle peut produire, celle-ci ne peut fonctionner qu’avec une très grande quantité de données. Sans données pour l’entraîner, une IA créative ne peut générer qu’un bruit aléatoire.

Pour pouvoir entraîner des IA de génération d’images, il a donc fallu attendre l’explosion des réseaux sociaux et des smartphones.
Les données, on en avait pas assez avant.

Second problème, plus un projet d’IA de ce type est ambitieux, plus il faut de neurones et de couches de neurones et plus il faut de données, et plus vous avez de neurones à entraîner et de données, plus l’entraînement est long, et donc, pour économiser du temps, il faut plus de puissance de calcul.
La puissance de calcul, on en avait pas non plus assez avant pour avoir des temps d’entraînement raisonnables.
Non, le deep learning, ce n’est pas du tout un algorithme éco responsable. x)

Pour parler plus grassement, en fin de compte, un projet de Deep Learning, c’est un concours de bites : plus on veut faire un projet ambitieux, plus il faut de moyens (recruter des data scientistes pour récolter et traiter les données, louer des cartes graphiques sur le cloud ou disposer de son propre centre de calcul).

Les limites de Midjourney, Dall-E & co

Pour en terminer avec le fonctionnement des IA, voici une petite analyse plus poussée des limites des IA génératives actuelles.

Pour commencer, voici des captures des galeries de Stable Diffusion et de Midjourney. J’ai aussi refait la même recherche que Spartan sur les démons pour Stable Diffusion.

Y’a pas un truc qui vous fait tiquer tout de même ?

Une IA c’est très fort pour recracher des choses qui ressemblent aux données d’entraînements, mais c’est beaucoup plus à la peine pour faire quelque chose de nouveau et dans ces galeries on ne vous affiche que les résultats les plus réussis, et dans les résultats les plus réussis, qu’est-ce qu’on trouve majoritairement ?
Des portraits, des légions de portraits ! Les concepts de personnages ont tous à peu près le même posing et si on inclut les quelques décors on constate que tout est vu à hauteur d’yeux.
Par contre, pour les keyframes du genre un personnage accroupi qui observe une fleur vu en plongée, un bonhomme qui surfe sur un skate volant vu en contre plongée ou 2 personnages qui font un câlin, on repassera.
C’est pour ça que la tentative de dragon cyberpunk de Spartan s’est soldée par un bel échec critique : des images de dragons, on en trouve à la pelle, des images de dragons cyberpunk, vachement moins !

Alors, pourquoi cette limitation ?
C’est simple, la nourriture des IA, les données, est aussi leur plus grand point faible.
Le fait est que sur Internet vous trouverez plus de portraits vus à hauteur d’yeux que de keyframes de malades avec des cadrages improbables, et les personnages qui se tiennent debout dans des poses peu originales, c’est quand même plus facile à dessiner, donc il y en a aussi plus de que des poses complexes.
Fatalement, les IA sont plus douées pour recracher ce type de contenu. C’est pas une surprise.

Cependant, des photos et des dessins avec des personnages dans des positions variées, il y en a aussi sur Internet, alors pourquoi ces IA sont-elles paumées avec des demandes anatomiquement plus complexes ?
C’est simple, elles s’entraînent sur la base de couples image/description et les descriptions des images ne sont absolument pas écrites par les data scientistes de l’équipe de développement, ils ne sont pas assez nombreux. Non, ils utilisent tout simplement des bots qui vont lire la description que l’auteur de chaque image a rédigé et les mots clé qui vont avec.

Mettons, vous faites un beau keyframe avec une scène d’action ou une étude de modèle vivant.
Lorsque vous publiez votre image sur le net, est-ce que vous vous amusez à rédiger une description complète du posing et du cadrage comme si vous vouliez qu’un aveugle puisse “visualiser” avec précision le contenu de votre image ?
Non.
Par conséquent, il y a un trou dans les données et l’IA se retrouve avec des images dont elle ne sait pas trop quoi faire et des possibilités qui ne lui sont pas accessibles.

Ceci pose d’ailleurs un problème plus grave : les biais culturels et les stéréotypes. Sans traitement manuel, ce que les IA recrachent est à l’image du contenu qu’elles trouvent sur Internet.
C’est d’ailleurs comme ça que les tentatives d’IA de conversation ont fini par tenir des propos racistes et que le portail francophone de Google a un jour affiché l’affiche du film Black Panther associée au titre La Planète des Singes en faisant passer ça pour une fiche d’Allo Ciné. Les activistes d’extrême droite savent très bien comment fonctionne le deep learning et comment entuber une IA de ce genre. C’est simple : il suffit de publier une association entre une image et un texte de façon à ce qu’elle devienne plus fréquente que l’association affiche/titre originale.
Les développeurs de Craiyon font d’ailleurs une mise en garde à ce sujet dans leur FAQ. https://www.craiyon.com
C’est écrit aussi sur le site de Stable Diffusion : https://stability.ai/blog/stable-diffusion-public-release

En parlant de câlins, voici un test que j’ai fait avec Midjourney.
Décryptage d’un petit exemple.

Je lui ai demandé de me “dessiner” les pilotes de Formule 1 Max Verstappen et Lewis Hamilton qui se font un câlin.
Voici le résultat après plusieurs itérations.

Oui, c’est dégueulasse. Y’a des trucs malaisant. Désolée si vous étiez en train de manger. :’D

Ici encore, le point faible, ce sont les données.
Sur cette image, avec les copains, on soupçonne Midjourney d’avoir utilisé des morceaux d’un autre pilote pour recréer Max Verstappen : Charles Leclerc.
Alors pourquoi ça fait ça ? Et bien, toujours pour la même raison. Midjourney et ses semblables utilisent des couples image/description pour s’entraîner et pour des pilotes de F1, nul doute qu’elles vont piocher les descriptions dans les articles de presse associés aux photos des pilotes ou les hashtags d'Instagram.
Sauf que, ces IA, elles sont un peu con con quand même.
Charles Leclerc et Max Verstappen sont deux pilotes qui se connaissent depuis tout petits à batailler en piste depuis le kart jusqu’à la F1, il est donc impossible de parler de l’un sans parler de l’autre. Par conséquent, les IA ont trouvé des photos de Charles Leclerc associées au nom de Max Verstappen. Et ne parlons même pas des tas de pécores sur Instagram qui ajoutent des tonnes de hashtag à la pertinence discutable sur leurs publications. ¬¬ Sans oublier les photos où les 2 pilotes sont présents.
Résultat, les IA pondent des images de Max Verstappen en prenant des bouts de Charles Leclerc. Et patatra ! Ça donne ce genre de truc étrange… Avec une bouche à l’envers qui bave. 😂

Spartan pense que tous ces défauts seront gommés avec le temps.
Voici ce qu’il faudrait faire pour y parvenir :
Le fait est, que sur internet, la majorité des images que l’on trouve n’est pas associée à une description exacte de ce qu’elle affiche, et c’est la principale limite qui empêche d’aller plus loin. Pour contourner cette limite, il faudrait renoncer au crawling automatique du contenu du web et recruter des armées entières de gens qui rédigent une description exacte de chacune des milliards d’images utilisées pour entraîner les IA.
…
On parle de boîtes qui ne sont même pas fichues de recruter assez de monde pour cliquer sur un bouton “Supprimer” à la chaîne pour modérer les contenus haineux et qui sont même en train de licencier du monde en ce moment parce que leurs revenus sont en baisse (Coucou Meta ! ). ¬¬

Le nerf de la guerre, ce sont les données, leur quantité ET leur qualité. Faire avaler des pétaoctets de données à une IA ne sert à rien si on ne les nettoie pas et ne les traite pas avant. Et si elles sont trop chaotiques, il faut se taper le boulot à la main.

Stratégie pour hacker les IA

Ces IA donnent du pouvoir au camp des clients, mais en s'intéressant au fonctionnement du deep learning et aux cas de fiascos connus on peut se rendre compte que nous aussi, les artistes, avons un certain pouvoir.

On peut pointer du doigt les activistes d’extrême droite pour leurs valeurs discutables mais on peut aussi les remercier de nous avoir montré la voie pour mettre du poil à gratter à ces entreprises qui utilisent nos images sans nous demander notre autorisation.
Il suffit pour cela de s’attaquer au principal point faible des IA : en sabotant les données !

Voici plusieurs pistes pour ce faire.

La première : comme expliqué plus tôt, il y a des trous dans les données qui font que les IA ne savent pas tout faire. Et bien on peut agrandir ces trous volontairement, en arrêtant de poster des portraits et des poses basiques, en nous efforçant de dessiner davantage de poses et de cadrages complexes (c’est pas un mal, ça nous fera progresser 😛 ) et lorsque nous postons nos images, ne surtout pas rédiger de description précise de leur contenu et réduire le nombre de hashtags aux seuls 2 ou 3 les plus pertinents. Ainsi, les IA n’ont aucune chance d’apprendre correctement l’anatomie et la perspective.

La seconde : injecter de la merde. Les gens qui mettent des tonnes de hashtags à la pertinence discutable sur Instagram, finalement ils sont pas si cons.
Petit exemple : Imaginons que vous dessiniez un Sangoku, seul, en train d’exécuter un Kaméhaméha. Lorsque vous postez l’image sur le net, premièrement, ne décrivez toujours pas la pose et le cadrage exact. Par contre, vous pouvez vous amuser à raconter ce qu’il se passe hors champ, des choses qu’on ne voit pas dans l’image, sans préciser que c’est hors champ (le visiteur humain le comprendra tout seul). Par exemple, que Sangoku va jeter son Kaméhaméha sur Végéta, ou Freezer, ou Cell… Et dans les hashtag ajouter des personnages qui n’apparaissent pas dans l’image, genre #vegeta #cell #freeza #gohan… Ou d’autres hashtags avec un lien éloigné. Comme ça, les IA seront dans la confusion.
On peut même pousser le vice en associant ces hashtags à des contenus NSFW. 8D
L’idée c’est de rendre le traitement des données impossible de façon automatisée et trop coûteux à la main.

Si on s’y met massivement, il y a moyen de geler la progression de ces IA. A titre individuel, il n’y a pas grand chose à faire, juste être un peu attentif à la manière dont on décrit nos images quand on les poste sur Internet, voire être carrément flemmard et en écrire le moins possible. x)
Plusieurs IA basées sur le contenu du web ont été sabotées de cette manière par le passé, parfois jusqu’au retrait du marché, donc il n’y a pas de raison qu’on ne puisse pas recommencer.

La chose importante à garder en tête c’est que ce qui coûte le plus cher dans le développement d’une IA c’est la récolte, le nettoyage et le traitement des données et on peut rendre ça déraisonnablement cher.

Alors en effet, je suis très sarcastique à propos des IA similaires à Midjourney. D’une part je suis assez fatiguée des discours binaires type “On va tous mourir” ou “C’est fantastique ! C’est la révolution !” qui survendent ces IA. D’autres part, j’en ai testées un certain nombre et je les ai trouvées tout à fait inexploitables pour mes projets et mes workflows. Je ne dis pas que ça ne servira à personne, mais ça ne colle pas à mes besoins spécifiques, voilà tout.

Pour autant, je ne crache pas sur la technologie du Deep Learning en elle-même. Au contraire, je la trouve super intéressante, mais je vois sa place davantage pour des tâches exécutives spécialisées que pour des tâches créatives généralistes.

Bon, maintenant qu’on a vu comment ça fonctionne, abordons la partie fun de l’article. Faire une IA soi-même ! \o/

Modifié 8 novembre 2022 par Suisei
Ajout du contenu

Suisei · 8 novembre 2022

Bonjour Péguy !

Pour commencer, Péguy, c’est quoi ?

C’est le nom que j’ai donné à une suite de petits outils que j’ai développés pour accélérer mes workflows. Je compte distribuer certains d’entre eux au public lorsqu’ils auront une interface user friendly. D’autres sont vraiment trop spécialisés pour que quelqu’un d’autre que moi puisse leur trouver une utilité.

Il s’agissait à l’origine d’outils de génération procédurale, d’où le nom Péguy. (Procedural Generator => PG => Péguy)
Puis ils se sont généralisés à toutes sortes de tâches répétitives.

Depuis quelques mois, quand j’ai découvert que le deep learning était accessible au particulier, je me suis dit qu’il pourrait être intéressant d’ajouter cette technologie à mes outils.
J’ai donc avalé des formations et des tutos et acheté des bouquins sur le sujet.

Et aujourd’hui, je peux vous présenter un premier prototype ! 😄

Alors je ne vous cache pas que si vous n’avez pas de bases en programmation et en math Bac+2, ça va être chaud de faire ça vous-même.
Mais si c’est le cas, alors pas de soucis, des tutos et un bon ordi personnel feront le taff. 🙂 Au pire, pour la phase d’entraînement, la location de ressources de calcul sur le cloud est accessible aux particuliers.

Bon !
Ma petite IA, qu’est-ce qu’elle fait ?
J’ai décidé de commencer par quelque chose de simple, mais qui est néanmoins l’étape la plus chronophage quand je la fais à la main (même numériquement) sur mes projets de BD : l’encrage.

Voici ce qui se passe : j’envoie mon crayonné à mon IA, puis celle-ci me retourne une version encrée au bout d’une ou deux minutes.

Je ne m’attarde pas sur le code, d’une part ça vous embrouillerait, d’autre part, je n’ai rien fait d’extraordinaire.
J’ai juste repris le code d’un tuto dont je mettrai le lien à la fin, j’ai du retoucher un réglage ou 2 et je lui ai juste fait avaler mes propres données pour l’entraînement au lieu de celles proposées dans le tuto.

En fait, il faut retenir que le code source d’une IA est hyper standard et générique et que ce qui fait la vraie spécificité d’une IA, ce sont les données d’entraînement qu’on lui fait avaler.

En somme, pour ce projet, la création et le traitement des données, c’est 90/95 % du boulot que j’ai fourni.

Je vous explique comment j’ai fait.

Le nerf de la guerre : les données d’entraînement

Alors ici, pas de problème de droit d’auteur. J’ai entraîné mon IA sur la base de mes propres dessins uniquement. Affaire résolue donc.

Comme je l’ai mentionné plus tôt, la qualité des données est primordiale et si j’avais dû construire mes données d’entraînement sur la base de données du web, je m’en serais pas sortie. Il aurait fallu trouver des couples crayonnés/encrages de haute résolution (déjà, ça c’est pas gagné) et qu’à chaque fois, le fichier de crayonné et le fichier d’encrage aient la même résolution et ne soient pas décalés. Bref ! Mission impossible. x)

On vous montre beaucoup d’IA basées sur le données du web, mais en vérité, pour faire une IA spécialisée de qualité avec des données de qualité, le mieux, ça reste de fabriquer ses propres données soi-même dans des conditions contrôlées.
Ha bah oui, tout le monde peut pas le faire. Faut encore savoir dessiner. Comme quoi, c’est toujours utile d’apprendre la compétence. x)

Vous vous dites sûrement “Ha mais tout de même. Des données il en faut beaucoup. Faire assez de dessins tout seul pour qu’une IA fonctionne, ça doit être chaud quand même.”

Alors en fait, pas tant que ça.

La vérité, c’est que plus une IA est complexe, plus elle aura besoin de données et inversement, plus elle est simple, moins elle en aura besoin.
Par conséquent, les Midjourney et compagnie, sont des projets tellement ambitieux qu’ils nécessitent effectivement des quantités astronomiques de données, mais un petit projet très spécialisé comme le mien, beaucoup moins. Mais alors vraiment beaucoup beaucoup moins.

L’autre point c’est d’analyser ce qu’on veut vraiment que l’IA sache faire. Ici, on veut qu’elle sache encrer un dessin. Grosso-modo, détecter le coup de crayon final et le repasser à l’encre.
Est-ce qu’on a nécessairement besoin d’avoir de beaux dessins figuratifs avec des poses complexes et variées, craqués de détails dans tous les sens qui nous prennent des heures de travail ?
Non.
Que vos données d’entraînement soient des illu de malade ou des crobards faits à l’arrache, l’IA, elle s’en contre-branle. Elle veut juste savoir repasser un trait de crayon.

Voilà donc ce que j’ai fait : j’ai pris mon carnet et j’ai crayonné dedans des tas de petits crobards abstraits ou figuratifs, des motifs et des effets de textures, je les ai scannés et je les ai encrés dans Clip Studio Paint.
J’en ai fait 120 comme ça. Pas plus.

Bon, alors 120 images, c’est vrai, c’est un peu léger pour entraîner une IA.
Mais c’est pas grave, pas besoin d’user davantage de jus de coude.
On peut augmenter la quantité de données artificiellement. Si si, c’est une vraie technique. x)

Le principe est simple : il suffit de créer de nouvelles images en puisant dans les données réelles, en combinant plusieurs images, en les décalant, en les tournant et en les redimensionnant.

C’est ce que j’ai fait.
J’ai créé un programme qui pioche plusieurs dessins originaux au hasard et les combine. J’ai ainsi multiplié la quantité de mes données par 10 !
1200 dessins, là ça devient intéressant !

Maintenant il n’y a plus qu’à entraîner l’IA.
Les algorithmes d’entraînement des IA sont optimisés pour tourner sur des cartes graphiques Nvidia. Malheureusement, comme j’ai un Mac et donc une carte AMD, j’ai dû me contenter du processeur. Mais il est costaud, donc il s’en est sorti.
La session d’entraînement a pris quelques jours.
…
Quelques jours de bruit de ventilo en continu. Faut être patient. 8D

Bon, maintenant voyons ce que ça donne.

Le résultat actuel

Alors en vérité, j’ai fait 2 sessions d’entraînement de mon IA et j’ai conservé les 2 versions. La première avec une première version de mes données, la seconde avec une version améliorée de mes données.

Pour cette présentation, je suis partie d’un crayonné que j’ai réalisé récemment dans le cadre de mes recherches pour le nouveau challenge.
Le voici.

En faisant passer ce crayonné dans la première version de mon IA, voici ce que j’ai obtenu.

Bon, pas folichon. Les traits de construction sont toujours là. A vrai dire, ça ressemble encore à un crayonné.

Quel est le problème ?

Les données d’entraînement, toujours.

Si vous retournez voir les données d’entraînement que j’ai montrées plus haut, vous pourrez noter 2 problèmes.

Le premier : les crayonnés n’ont aucun trait de construction. Comme c’était des dessins extrêmement simples, je les ai quasiment tous tracés d’un coup sans quasiment aucun trait de construction.
Le second : lors de l’encrage, j’ai été trop fidèle au crayonné. Je l’ai repassé scrupuleusement.

La conséquence, c’est que l’IA aura tendance à encrer le moindre coup de crayon qu’elle trouve, dont les traits de construction et la moindre poussière qui passe par là.

J’ai donc dû retravailler mes données pour entraîner une seconde version de mon IA.

Pour cela j’ai ouvert mes crayonnés dans Clip Studio Paint et j’ai ajouté des tas de petits traits de construction ou d’hésitation avec un brush crayon.

J’ai aussi ajouté un petit flou gaussien à mes coups de crayons numériques parce que le grain du brush est plus net que celui du crayon tradi. Je me méfie parce qu’une IA ça peut être extrêmement con de précision donc je veux m’assurer qu’elle ne soit pas capable de distinguer un coup de crayon tradi d’un coup de crayon numérique.

Ensuite, j’ai refait l’encrage, mais cette fois, je l’ai fait à la fois plus propre et moins fidèle au crayonné. Si je trouvais des tremblotements sur une courbe, je ne les suivais pas, je faisais une courbe propre à la place.

Une fois mes dessins retouchés, je les repasse dans la moulinette à multiplication et c’est reparti pour plusieurs jours d’entraînement !

Et voici ce que ça donne avec la seconde version de mon IA.

Sans être parfait, c’est déjà mieux. Il reste beaucoup moins de traits de construction.

Notez que je n’ai pas augmenté la quantité de données d’entraînement, je les ai seulement modifiées pour qu’elles soient plus proches d’un cas pratique.

J’insiste beaucoup sur la qualité des données, mais comme vous pouvez le voir, ça a un impact évident.
Augmenter la quantité de données peut être intéressant, mais à la condition de s’assurer que ces nouvelles données apportent une diversité réelle. Je pense que si j’augmente mes données davantage en demandant à mon programme d’augmentation artificielle d’en créer plus ça n’améliorera pas ou très peu le résultat.

Paradoxalement, dans le cas présent, avoir des données de qualité revient à avoir des crayonnés plus sales. x)
On revient toujours au problème de généralisation du modèle. Il faut qu’il soit capable de se débrouiller sur de nouvelles données, pas juste qu’il soit très fort à reproduire les données d’entraînement.

Initialement, je prévoyais d’attendre d’avoir fait une troisième session d’entraînement avant de vous présenter tout ça, mais l’actu m’a rattrapée. x)

Je vais donc vous expliquer ce que je prévois de faire pour tenter d’améliorer ce projet.

Pistes d’améliorations

Pour l’avenir, je prévois 2 étapes d’amélioration.

La première consiste à enrichir les données avec de vrais dessins et pour ça le inktober est tombé à pic !
J’ai bien pris soin de scanner les crayonnés avant de faire mes encrages tradi. Il me reste à finir les encrages numériques.
J’ajouterai probablement les crayonnés de mes recherches pour le challenge aussi.

La seconde : modifier mon réseau de neurones pour pouvoir traiter des images de n’importe quel format.
Ça ne se voit pas dans l’exemple que j’ai montré jusqu’à présent, mais en fait, mon IA ne sait traiter que des carrés de 1024x1024 pixels. Il y a un pré-traitement qui découpe l’image en carrés de cette taille et s’il y a des carrés incomplets, des pixels blancs sont ajoutés. Ensuite, l’IA traite les carrés un par un indépendamment les uns des autres. Et pour finir il y a un post-traitement qui réassemble les carrés générés par l’IA.

Sur cet exemple, c’est visible grâce aux à-plats noirs dont l’interprétation est encore loin d’être au point.

Il y a des réseaux de neurones capables de prendre en compte des pixels distants lors du traitement d’un pixel de l’image, ce qui serait bien pour traiter les pleins et les déliés sur des éléments qui occupent plusieurs carrés. Pour cela savoir traiter des images de tailles variées sans les découper serait utile.
Il faut que je potasse mes bouquins pour améliorer ce point.

J’ai aussi d’autres idées d’IA très spécialisées comme ça, que je voudrais essayer, ainsi que des idées pour “fabriquer” les données d’entraînement qui vont avec mais je vais commencer par améliorer celle-là avant de m’éparpiller.

Voilà voilà !

On a fait le tour de cette expérience, maintenant, il est temps de conclure ! 😄

Modifié 8 novembre 2022 par Suisei
Ajout du contenu

Suisei · 8 novembre 2022

L’artiste de demain est-il développeur ?

Bon, qu’on se le dise, le grand remplacement des artistes par les IA, je n’y crois pas le début d’une seconde.
En revanche, ce dont je suis certaine, c’est qu’elles vont transformer le métier comme l’ont fait l’arrivée du numérique puis de la 3D sur le marché à leur époque.

De nouveaux outils vont débarquer et avec eux de nouveaux métiers aussi. Avec Photoshop et la 3D, il y a des métiers qui sont nés et qui n’existaient pas avant.
Alors oui, ça implique de faire de la veille sur ce qui existe et sort, de se former, de mettre à jour son panel de compétences. C’est la réalité de n’importe quel métier en fin de compte.

Enfin, à condition de changer d’approche.

Une collaboration constructive plutôt qu’une guerre destructrice

Les boîtes qui développent ces IA de génération d’image à partir de texte se plaisent à faire le buzz en montrant les résultats les plus réussis et les artistes qui s’en servent, même expérimentés, sont plutôt avares en informations quant au nombre de tentatives et aux prompts qu’ils ont utilisés pour obtenir les résultats qu’ils affichent.
Mais personne ne parle des 99,9…% de déchets inutilisables parce que la moitié des infos du prompt sont zappées, sans parler de l’anatomie et de la perspective mal assimilées.

L’approche est à la fois trop ambitieuse et trop naïve (en plus d’être légalement discutable vis-à-vis du droit d’auteur). Le seul moyen d’avoir assez de données pour cela, c’est d’aspirer les données du web à l’aide de bots. Sauf que ces données, comme expliqué plus tôt, sont chaotiques. Elles comportent des trous et des hashtags non pertinents.
Le problème avec le deep learning, c’est que si on n’améliore pas la qualité des données dont on dispose déjà, en ajouter davantage n’améliore pas la qualité de l’IA. On atteint un plafond. L’IA peut même régresser si les nouvelles données injectées sont corrompues avec davantage de trous et de descriptions et hashtags incohérents.
Pour dépasser ce plafond et améliorer l’IA, il n’y a pas 36 solutions : il faut retaper la description de chacune des images récoltées sur le web.
Vu la quantité, c’est juste IM-POS-SIBLE. x)
En fait, il y aurait une possibilité : que les auteurs de chaque image eux-mêmes le fassent… Mais je ne pense pas qu’il soit malin de compter sur eux pour faciliter la tâche de ceux qui pillent leurs créations.

Avec la hype, des petits clients type particuliers, petits éditeurs ou artisans vont peut-être être tentés de passer par les IA pour créer leurs images.
Ils vont essayer…

Mais alors gare à la déception.

Reprenons l’exemple du Sangoku qui fait son Kaméhaméha.
Imaginez qu’un client potentiel décide de demander ça à une IA plutôt que de commissionner un artiste.
Je viens de tester Stable Diffusion.
Après une bonne vingtaine de rendus, alors il y a des rendus pas mal où on reconnait un peu Sangoku… Des rendus que je soupçonne d’être obtenus à partir d’une ou deux images seulement aussi (ça renifle le surentraînement).
Mais la pose iconique du Kaméhaméha, impossible de l’avoir, ni de près, ni de loin !
Le client, il sera bien obligé de revenir commissionner l’artiste. x)

Je pense que les petits clients qui auront été tentés de faire des économies vont vite revenir vers les petits artistes après s’être bien cassés les dents sur des résultats à côté de la plaque où à la qualité discutable.

Je vous encourage vraiment à tester ces IA par vous même pour vous en rendre compte, même si vous ne les aimez pas. On craint ce que l’on ne connaît pas, mais on ne craint pas ce que l’on connaît.
Si vous avez des idées précises de ce que vous voulez faire ou un brief d’un client à tester, vous verrez que tirer ce que vous voulez de ces IA, c’est… délicat.

Pour vraiment passer outre ces défauts, je pense qu’une autre approche va s’imposer.
En vérité c’est une approche utilisée depuis bien longtemps parce que le manque de données et de puissance de calcul l’imposait :

La spécialisation.

Plutôt que d’avoir une grosse IA généraliste qui essaie de créer une image de A à Z pour un résultat approximatif qui nécessitera souvent beaucoup de retouches, combiner plusieurs IA très spécialisées sur les étapes les moins créatives et les plus laborieuses du workflow.
Ces IA pourraient donner des résultats beaucoup plus qualitatifs, nécessitant beaucoup moins de retouches, tout en nécessitant peu de données et de puissance de calcul.
Piocher ces données sur Internet n’est pas la bonne idée, outre le problème des droits d’auteur, je vais le répéter, sur Internet vous ne maîtrisez pas la qualité des données.

Non, le plus simple, c’est de travailler en collaboration avec les artistes. Les recruter pour qu’ils créent les données d’entraînement en échangeant avec eux sur ce qu’on veut que les IA maison sachent faire. Ainsi, la qualité des données sera sous contrôle et normalisée.
Ainsi, on peut créer des IA spécifiques aux besoins d’un studio, voire d’un projet. On peut tailler des IA sur mesure qui rendront un style spécifique et unique.

Je pense qu’il peut ressortir quelque chose de beaucoup plus positif si les développeurs et les artistes travaillent en collaboration plutôt que les uns contre les autres.

Bon, et l’artiste de demain, est-ce qu’il est développeur ?

Je pense que de nouveaux profils d’artistes peuvent émerger avec ces nouvelles technologies.
Comme pour la 3D avec laquelle un certain nombre d’artistes sont devenus plus techniques à devoir manipuler davantage de chiffres et de math. Les systèmes nodaux de Blender et de Houdini sont d’ailleurs des sortes de langages de programmation. La plupart des logiciels de 3D sont d’ailleurs scriptables avec le langage Python. Un artiste qui a des bases dans ce langage peut donc encore plus tirer partie de ces logiciels.

Et bien ça peut être pareil avec les IA. Un artiste qui s’initiera à la data science pourra créer ses propres IA à son image, avec son style, pour réaliser ses propres projets, réaliser des projets plus ambitieux que si cette technologie n’existait pas, ou il pourra mettre en valeur sa compétence double sur le marché du travail.

Par contre, un développeur pur jus qui n’a jamais touché un crayon de sa vie ne pourra jamais remplacer l’artiste. Si on reprend la démarche de construction des données de ma petite IA, je doute que quelqu’un qui n’a jamais dessiné de sa vie aura l’idée de prendre en compte les traits de construction, le grain du brush numérique ou de faire des pleins ou des déliés sur ses encrages. Et puis il ne saura tout simplement pas faire de crobards corrects.

Oui, le métier va sûrement changer.
Les budgets pour des projets d’un même niveau d’ambition vont sûrement baisser et la taille des équipes aussi. Mais qui dit budgets plus modestes dit aussi projets plus accessibles à des petites structures qui ne pouvaient pas les faire avant et aussi possibilité de court-circuiter les producteurs et éditeurs frileux pour faire des projets plus innovants sur le plan créatif.
Les indépendants auront plus de possibilités.

Modifié 8 novembre 2022 par Suisei
Ajout du contenu

Suisei · 8 novembre 2022

Bibliographie

OpenClassrooms, Apprenez les bases du langage Python : https://openclassrooms.com/fr/courses/7168871-apprenez-les-bases-du-langage-python

Le Python, c’est un langage très populaire de nos jours. Il est présent dans un tas de domaines différents. Il est utilisé pour scripter ou développer des plugins dans la plupart des logiciels de 3D dont Blender. C’est aussi le langage le plus complet pour faire de la data science et du deep learning.

Machine Learnia : https://www.youtube.com/c/MachineLearnia

Une chaîne YouTube pédagogique qui propose une initiation au machine learning, au langage Python dans le cadre du machine learning et une troisième sur le deep learning.
Je vous recommande d’ailleurs la première vidéo de la formation de deep learning. Elle retrace l’histoire des réseaux de neurones artificiels tout en expliquant les bases de leur fonctionnement.

OpenCV Python Tutorial (en English) : https://www.geeksforgeeks.org/opencv-python-tutorial/
OpenCV est une librairie de manipulation d’images. Elle est disponible en Python et dans d’autres langages. Je l’ai utilisée pour mon programme de multiplication des données d’entraînement, entre autres.

Réseau de neurones avec Tensorflow : https://khayyam.developpez.com/articles/intelligence-artificielle/tensorflow/

Tensorflow est une des bibliothèques qui permet de monter un réseau de neurones comme un jeu de Lego, de l'entraîner, puis de l’exécuter.
Dans ce tuto, on apprend à développer un réseau de neurones capables de classifier des chiffres écrits à la main.

Tensorflow et les réseaux antagonistes génératifs : https://khayyam.developpez.com/articles/intelligence-artificielle/tensorflow-gan/

Les réseaux antagonistes génératifs sont les modèles utilisés pour la création d’images. Ils se composent de 2 réseaux de neurones. L’un génère des images, l’autre identifie si une image est réelle ou si c’est un fake généré artificiellement. Les 2 réseaux s’entraînent en tandem : pendant que le discriminateur s’entraîne à distinguer les images réelles des images artificielles avec plus de précision, le générateur s’entraîne à créer des images qui vont tromper le discriminateur.
Dans ce tuto, on apprend à créer un réseau capable de générer un chiffre écrit à la main.

How to Develop a Conditional GAN (cGAN) From Scratch (en English) : https://machinelearningmastery.com/how-to-develop-a-conditional-generative-adversarial-network-from-scratch/

Dans ce tuto, on apprend à développer un GAN conditionnel. C’est comme le précédent, sauf qu’on précise en entrée quel type d’objet on veut générer dans notre image.

How to Develop a Pix2Pix GAN for Image-to-Image translation (en English) : https://machinelearningmastery.com/how-to-develop-a-pix2pix-gan-for-image-to-image-translation/

Il s’agit de l’algorithme que j’ai utilisé ! Il permet de transformer une image en une autre. Il est entraîné sur la base de couples d’images sources et cibles.

Et pour finir, les bouquins que je potasse en ce moment.

Je les ai achetés à la librairie Eyrolles à Paris. Ils se commandent aisément sur Internet.

Voilà, voilà !
Merci de m’avoir lu jusqu’au bout.
Je compte sur vous pour envoyer des illustrations hors d’atteinte des IA pour le challenge ! 😄

Bonne nuit ! 😴

Modifié 8 novembre 2022 par Suisei
Ajout du contenu

SimonC · 8 novembre 2022

Waouh ça fait beaucoup d'infos ! Merci à toi de partager tout ça ! 😁

vera · 8 novembre 2022

Alors là ! Merci ! Bravo ! Total respect !😍

Il y a 6 heures, Suisei a dit :

Merci de m’avoir lu jusqu’au bout.

Tu expliques très bien, admiration pour tout ton travail d'exploration, de tests, de partage, de démystification
Juste une suggestion pour rassurer les membres de la communauté qui sont très très inquiets :
peux-tu demander aux modérateurs de déplacer ton sujet dans la rubrique "vos ressources" pour le rendre plus visible ?
C'est un sujet de fonds qui répond à un énorme questionnement
et dans "vos exercices..." il est vite recouvert et on a du mal à le retrouver 😉

Neuf150 · 8 novembre 2022

Merci Suisei de ces informations très complètes et peut-être difficiles à appréhender pour certains. Mais sa lecture pourra certainement calmer l’angoisse de la plupart des pessimistes.

Comme je le faisais remarquer dans un autre post, qui connaît encore le dessinateur d’exécution en publicité ? Et pourtant il y a encore des gens qui font de la mise en page mais avec d’autres outils.

En tout cas, je retiens la technique pour berner IA.

Le seul sujet, qui pose réellement question, est celui du droit d’auteur…

Bon brush.

NB : suite à la demande de Vera, il pourrait même créer un forum spécial IA car il y a déja beaucoup de posts…

Modifié 8 novembre 2022 par Neuf150

Spartan de DPS · 8 novembre 2022

Wow, je n'ai pas pris le temps de tout lire encore mais sacré sujet que tu nous as fait là, merci beaucoup @Suisei ! C'est inestimable et vraiment bien expliqué.

Comme suggéré, si tu es d'accord, je serais ravi de le mettre en avant sur le site. Autant de travail mérite de la visibilité.
Et @Neuf150 très bonne idée pour une section dédiée aux IA. On va voir si on fait ça tout de suite ou si on attend un peu. Merci pour la suggestion !

m100 · 8 novembre 2022

Superbe ce post @Suisei, ça donne presque envie de se mettre au code 😂.

Rien ne doit être simple mais ton boulot sur l’encrage est particulièrement intéressant !

Suisei · 8 novembre 2022

Il y a 4 heures, Spartan de DPSchool a dit :

Comme suggéré, si tu es d'accord, je serais ravi de le mettre en avant sur le site. Autant de travail mérite de la visibilité.

Initialement j'ai posté ce sujet dans les WIP parce qu'après tout, mon projet est bien à l'état de WIP, mais si ça peut permettre d'informer les gens et d'apaiser leur anxiété, je ne vois aucun problème à ce que le sujet soit déplacé dans une section plus pertinente. 😄

Il y a 5 heures, Neuf150 a dit :

Le seul sujet, qui pose réellement question, est celui du droit d’auteur…

Le sujet mérite effectivement discussion.
Je pense m'attarder sur la question en prenant en compte l'aspect technique. Je ne peux pas le faire de suite parce qu'il faut que je sorte, mais d'ici la fin de la semaine, c'est possible.
De mon point de vue, le vrai noeud du problème tient dans la constitution d'une base de données d'entraînement avec des contenus extraits à l'insu de leurs auteurs. Dans le cas d'une base de données d'entraînement construite en toute légalité et toute transparence par des auteurs recrutés à cet effet ou avec des données qui appartiennent à l'organisme qui développe l'IA, j'estime que le statut d'une oeuvre créée à l'aide d'une IA ne devrait pas être différent de celui d'une oeuvre créée avec Photoshop, CSP, Procreate, Blender... Je détaillerai mon point de vue.
En vérité j'ai vraiment un problème avec le terme "IA" pour les algorithmes de machine learning. x)

En tout cas, si ce contenu vous a plu et paru utile, j'en suis heureuse. Merci à vous d'avoir eu la patience de lire. 😄

Xuan · 8 novembre 2022

Mais...Mais tu as fait tout un travail de thèse de fin d'études, ma parole ! Sérieusement, j'ai eu l'impression d'assister à une défense de thèse de master (en version écrite...) de l'époque où j'étais à l'université ! Un grand bravo et merci à toi pour ce travail de longue haleine et ce long sujet, surtout que tu es parvenu à rendre la chose assez compréhensible et intéressante pour les personnes qui comme moi ont mis de côté les sciences à la fin du lycée ! 👏 🙂

Alors, même si je suis le public principal à qui s'adresse ton message, vu que je panique autant qu'un chat à la vue d'un aspirateur, la tension n'est pas totalement retombée. En effet, ce n'est pas la technologie qui m'inquiète mais l'emploie que l'on pourrait en faire. C'est un peu comme les terminators : si on craint le terminator de Skynet, celui terminator de John Connors on l'aime bien...
Donc à voir ce qui se passe d'ici quelques années, vu que d'ici là on aura commencé à voir pas mal de procès pour atteinte aux droits d'auteurs.

Le 11/8/2022 à 3:48 AM, Suisei a dit :

il faudrait renoncer au crawling automatique du contenu du web et recruter des armées entières de gens qui rédigent une description exacte de chacune des milliards d’images utilisées pour entraîner les IA.

Je m'inquiète justement que certaines boîtes le fassent s'il y a un gros gain au bout de la ligne, je me dis que là c'est différent d'avoir des modos.

Cependant, ce que tu dis sur piéger les IAs sur le long terme en trafiquant nos hashtags voir en postant des images avec de mauvais hashtags est super intéressant et pratique. Je n'ai pas vu cette idée être partagée ailleurs : tu as songé à contacter certains et certaines des artistes qui sont actuellement très vocaux sur le sujet, histoire qu'ils fassent passer le message (Karla Ortiz, Steven Zapata ?...).
Je me demande même si ce ne serait pas possible d’entraîner des IAs pour qu'elles repostent au hasard nos images avec des mauvais hashtags afin saboter les IAs type midjourney et compagnie. ^^"

J'en profite pour poser une question. Tout le début de ton sujet m'a en fait un peu inquiété, quand tu as expliqué que l'on peut coder des IAs dans ses charentaises car en fait c'est tout simple. Ma première pensée a été de me dire que si elles sont toutes simples, alors elles ne peuvent que s'améliorer et se complexifier avec le temps. Vu que tu es calé sur ce sujet, à ton avis combien de temps avant la prochaine évolution des IAs ?

Enfin, et histoire que je parle d'autre chose que des trucs qui me mettent en PLS, ta petite IA d'encrage est super intéressante et bien trouvée (brevette ça avant qu'une grosse boîte le fasse avant 😂) ! Là je vois clairement une IA qui pourrait servir en tant qu'outil afin de nous aider, un peu comme l'outil de coloriage de Krita.

Modifié 9 novembre 2022 par Xuan

Beli Yaal · 8 novembre 2022

T'as fais un taff de dingue ! J'ai tout lu et c'est impressionnant ! Tu m'aurais presque donné envie de me mettre au code si tu n'avais pas parlé de "y= xw ...." Je me rappelle déjà plus de la suite 😶 ! Comme Xuan, je crois aussi que tu as matière à en faire quelque chose là !

J'ai aussi fait un peu partie de la team pessimiste depuis quelques jours, en voyant tout le monde même de gros artistes, qui commençait à se pencher sur le sujet. Comme tu dis, quand on ne connait pas, on flippe.

Mais merci à toi ! Rien ne vaut les paroles de quelqu'un qui s'y connait réellement, et qui argumente sur du concret ! T'as sérieusement fait redescendre la pression chez moi. MERCI ! Et j'vais adopter tout tes conseils pour contrer ces IAs ! 😄

Erynaur · 9 novembre 2022

Juste... WOAW.👏

Impressionnant tout ce travail fourni pour nous en apprendre plus sur les IA, une vraie mine d'or, je fais partager 😉

Chapeau ta "petite IA", elle me semble bien sympathique. Si j'avais un peu plus de temps à y consacrer, je m'y serai clairement mise, bien qu'il me faille sans doute une petite remise à niveau en maths ! 😂 Tiens nous au courant de ton avancée en tout cas !

Un grand merci, ça doit en rassurer plus d'un, je sens qu'on va voir pleuvoir des Winny l'Ourson / Sangoku dans les hashtag maintenant !

mymdessine · 10 novembre 2022

Article suuuper intéressant ! J'ai aimé la comparaison au blender qui conclu la première partie, très bonne vulgarisation 😁 . Ton "c'est dégueulasse" du câlin des pilotes m'a bien fait rire (Et oui, le rendu est flippant).

Bravo pour ton IA, et pour tout ton travail, qui mérite clairement d'être mis en avant. Cela démystifie bien ce qu'on peut entendre autour du sujet en ce moment.
Je m'étais dit aussi que la solution coté droits d'auteur c'était finalement de se créer sa base. Sur le principe, on pourrait effectivement faire ça individuellement. Je m'étais déjà imaginée en train de donner mes instruction à une ia à la Jarvis, trop bien 😄.

En tout cas, merci encore pour tes explications !

m100 · 10 novembre 2022

@Suisei, tu expliques que l’algorithme découpe l’image en carrés de 1024x1024 p ( taille que tu as choisie et modifiée dans pix2pix ? ) est-ce que l’image traitée doit aussi avoir une taille standardisée ? Et si ce n’est pas trop demander, les images d’entraînement ont-elle aussi une taille précise ?

Octambre · 21 novembre 2022

Merci beaucoup @Suisei pour ton travail de vulgarisation. Je comprends mieux comment les IA fonctionnent et ça les démystifie par la même occasion. Pour autant je ne suis pas moins inquiet, comme l'a dit @Xuan c'est l'usage qu'on en fera qui sera essentiellement un problème. Aussi il y a 2 points qui, à mon avis, ne nous permettent pas d'être "rassurés" :

- Tu proposes de ne plus décrire nos créations sur les réseaux par ce qu'elles représentent. Mais rien n'empêche que quelqu'un reposte notre travail et décrive nos images, c'est souvent ce qui se passe sur insta. Ensuite ça serait pas plutôt s'adapter à l'IA que d'appliquer cette stratégie (je reconnais ne pas en trouver pour lutter contre les IA) ? Et quid de l'intérêt de partager et diffuser notre travail au final ? Je pense qu'il y a un travail d'information à faire, comme tu l'as fait (encore merci), mais les IA sont aussi séduisantes. Ça divisera peut-être davantage les gens.

- Même en connaissant le fonctionnement d'une IA, qu'elle imite le fonctionnement cognitif d'un être intelligent et n'est pas à proprement parler autonome (cf. la supra IA). Elle arrive à un stade où elle est largement convaincante pour balayer pas mal d'enviro artists/illustrateurs/fine artists. Je ne sais pas quelle attitude adopter quand je vois ça, car il y a une douce poésie à un niveau que je souhaiterai atteindre. Je trouve la force esthétique de certaines images très efficace comme par exemple :

C'est d'une tendresse...

Suisei · 22 novembre 2022

Hello @Octambre !

Il y a beaucoup de questions auxquelles il faut que je réponde. Ça va donner lieu à un nouvel article assez long qui est en cours d'écriture. x)

Mais pour répondre vite dans un premier temps :

Pur le premier point, les gens n'ont pas de raison particulière de reposter nos images en les décrivant avec la précision nécessaire pour alimenter les IA, surtout pas à l'ère du zapping ultime où les gens consomment toute image en l'espace de 2 secondes. Je vais expliquer pourquoi dans le prochain article, mais en vérité il n'y a pas assez de chômeurs sur Terre pour faire ce boulot de nettoyage et il n'y a clairement pas la motivation des entreprises pour le faire. J'ai trouvé la base de données qu'ils utilisent. Je la présenterai en détail... Et il n'y a vraiment personne pour la nettoyer. x)

Pour le second point, je ne sais pas si tu as généré toi même ces images, qui sont effectivement très jolies, mais pour avoir passé un certain nombre d'heures sur les IA, je peux dire qu'on tombe sur le 0,000001 % de réussi surmédiatisé. Je n'ai jamais rien tiré de tel avec les IA. J'y arriverai plus vite au jus de coude à titre personnel.
Le problème avec ces images, c'est que les gens qui les génèrent se gardent généralement de dire combien de tentatives ils ont fait et avec quel prompt pour en venir à ce résultat. Parce que bon, entretenir le mystère sur ce point, c'est pratique pour contribuer au buzz et faire jazzer en impressionnant les gens.
Le mec qui a gagné un concours avec une image générée par midjourney, au moins, il a eu l'honnêteté d'expliquer qu'il a fait des centaines s'essais pendant 2 semaines pour un résultat pas si ouf qu'un artiste digital professionnel pourrait obtenir en quelques heures.
C'est pour ça que j'encourage les gens qui s'inquiètent à tester ces IA, pour se rendre compte à quel point c'est difficile d'en tirer quelque chose du niveau que tu proposes. L'anatomie, n'en parlons pas, ça finit toujours en crise de fou rire. x)

Je viens de faire 3 ou 4 essaies sur Stable Diffusion pour essayer d'approcher ces images et je n'ai obtenu que ça.

Avec le prompt suivant : young woman with white dress walking across a valley between mountains at spring digital painting

C'est loin des images que tu as postées et de ce que tu sais faire de tes propres mains.
Ceux qui ont le plus à s'inquiéter ce sont les arnaqueurs qui vendent des images volées retouchées sur Google image sur Fiverr.

Quieng · 28 novembre 2022

Très impressionant et didactique, bravo (c'est mon domaine de spécialité). L'introduction est excellente pour démystifier le domaine, et on voit bien la frontière floue entre statistiques de base et "IA".

Si j'avais des touches à ajouter :

- citons Rina Dechter pour l'apprentissage profond (les femmes ont tendance à fonder des domaines de recherche mais à ne pas être reconnues pour ça).

- historiquement l'IA passe par de cycles de "wow ça y est on va construire HAL 9000" puis "ah ouais mais non en fait c'est juste un jouet". On voit ça très bien dans la SF des années 50, où c'étaient des techniques d'IA différentes qui étaient à la mode (l'optimisation, d'où les tics du genre "l'ordinateur a calculé votre partenaire romantique idéal", "un plat parfaitement équilibré" etc.) Là on est sur un pic d'enthousiame sur ces techniques statistiques massives, et comme dit @Suisei c'est rigolo mais ça ne donne pas à l'ordinateur l'ombre d'une connaissance du monde réel, sans parler des multiples couches d'abstraction successives sur lesquelles nous raisonnons (comme mammifères, comme humains, et particulièrement comme artistes). Je m'attends à ce que la hype retombe d'ici à quelques d'années tout au plus.

- La question de l'annotation des images : ne pas décrire ses images non seulement n'est pas vraiment une solution (les images marquantes vont susciter des commentaires qui suffisent à constituer une annotation grossière) et pose des problèmes d'accessibilité pour les personnes mal-voyantes et non-voyantes. Le rapport coût/bénéfice n'est pas favorable, et les inconvénients tombent comme toujours de façon disproportionnée sur des personnes déjà défavorisées.

- Les systèmes de programmation par boites et fils, comme pour les shaders de Blender, existent déjà dans des produits commerciaux de gros éditeurs logiciels (ça me stresse parce que ça restreint à des modules pré-programmés et que ça donne à des gens pas formés l'illusion de savoir faire des trucs alors qu'ils sont comme un Labrador au volant d'un 36 tonnes)

Sur le registre des intuitions et des opinions : Outre le problème, très réel, du droit d'auteur, il y a la question de la standardisation de l'art que peut susciter ce genre de technique ; mais pour le coup l'outil technique est un miroir aux allouettes, parce que la pression de conformisme vient toujours de certains humains. Et dans le domaine, l'explosion des budgets des films et des jeux vidéo force à un certain conservatisme depuis des décennies, du simple fait des enjeux financiers (on peut jouer quelques centaines de milliers de dollars pour voir comment Duel ou THX 1138 vont marcher, mais on ne déconne pas avec des budget 1000 fois plus importants comme pour The Last Jedi, on veut être sûr que ça va marcher et du coup c'est beaucoup de recyclage et de facilité). Utiliser du Deep Learning pour ça est en quelque sorte l'aboutissement ultime de ce processus de bureaucratisation et de banalisation, en mécanisant carrément la production d'images.

La solution à ça est de nous approprier les techniques, que ce soit des maths de la Renaissance comme la géométrie en perspective ou des techniques plus contemporaines (et c'est bien pour ça que nous sommes ici !), mais pour les mettre au service de ce que vous voulons faire dire à nos images. Par exemple je suis obsédé par les coups de pinceau de John Harris qui donnent un côté poétique et contemplatif à ses tableaux ; mais sa vision du futur a aussi un côté mystique, triste et inquiet auquel on n'est pas forcé de souscrire. La technique est bluffante, mais elle est au service du propos de l'image, elle ne constitue pas ce propos.

Ou @Octambre qui trouve dans des images synthétiques une douceur qu'à mon avis il y met lui-même : l'ordinateur a juste recraché des techniques pré-raphaélites auquel il arrive par mash-up automatique et que nous humains pouvons apprendre, mais pour le reste je ne vois qu'une femme-poulpe en chemise de nuit qui risque l'hypothermie dans la lande écossaise, et c'est là que je voudrais qu'on me montre ce qu'Octambre a vu — qui est cette femme, qu'est-ce qu'elle fait là etc., là où est vraiment l'information et donc la richesse de l'image.

Octambre · 29 novembre 2022

Le 11/28/2022 à 9:48 AM, Rama a dit :

Ou @Octambre qui trouve dans des images synthétiques une douceur qu'à mon avis il y met lui-même : l'ordinateur a juste recraché des techniques pré-raphaélites auquel il arrive par mash-up automatique et que nous humains pouvons apprendre, mais pour le reste je ne vois qu'une femme-poulpe en chemise de nuit qui risque l'hypothermie dans la lande écossaise, et c'est là que je voudrais qu'on me montre ce qu'Octambre a vu — qui est cette femme, qu'est-ce qu'elle fait là etc., là où est vraiment l'information et donc la richesse de l'image.

Ce qu'elles font là et qui sont elles je ne sais pas, mais elles sont assez bien réalisées pour que tu les considère. Une douceur que je mets moi-même ? Oui pleinement, mais pas seulement, c'est une image avec une certaine esthétique, j'y suis donc sensible et j'y donne mon interprétation. Comme plein de gens, en fait. Pour le prompt j'ai pas du tout eu besoin de mentionner qu'il y avait une femme, ni l'écosse, ni un drapé blanc, ni les préraphaélites ou de la douceur, etc, etc. Je vais pas donner une sacro-sainte puissance aux IA, mais je vais pas dénigrer pour autant leur impact on va pas se mentir: ça nous sort de belles images.

Où sont les informations dans les peintures en-dessous selon toi ? Et la richesse de l'image - c'est un peu du même accabit ? Parce que selon moi la peinture est bien plus supérieure que la somme des éléments qui la compose (tu considère un film uniquement par son casting?)... On voit son ensemble quand on la contemple, c'est-à-dire quand ton esprit s'absorbe de ce qu'il voit/entend (être sensible quoi). Ce que visiblement tu ne semble pas voir dans ce "qu'Octambre a vu" c'est de la poésie tout simplement, chose à laquelle tu n'es peut-être pas sensible.

Donc pardon braves gens si je me pose quelques questions sur les IA, que je ne les considère pas encore pour des outils au même titre qu'un lasso, que j'y suis réceptif et sensible quoi 🥲. Elles m'obsèdent moins qu'il y a quelques temps mais elles me brisent les ****** toujours autant. Bref, on n'a pas la même conception des choses, j'essaie d'avoir une vision générale, et pas être juste focus sur le concept art, l'illustration et son storytelling.

Quieng · 29 novembre 2022

Je crois que mon expression maladoite a rendu mon propos blessant, ce qui n'était pas mon but mais semble être l'effet obtenu. Mes excuses pour ça.

Quand je dis que la douceur est dans ton regard, je ne le pense pas dans un sens dépréciatif, et je n'insinue pas qu'il n'y en a pas. Mais elle est dans les images qui constituent le corpus d'entraînement. L'ordinateur a juste assemblé des pixels selon des règles complexes qui n'ont aucun sens particulier pour lui. Le peintre qui réalise la peinture originale a ressenti quelque chose, l'a transcrit en art, et te communique son émotion. L'ordinateur, lui, n'a pas d'émotion, et lorsqu'il produit une image, tu es la première entité sentiente à ressentir une émotion.

Après ce sont des maths extrêmement intéressante, et ceci a aussi une beauté intrinsèque ; mais je ne pense que la mise en œuvre de ces mathématiques constitue de l'art au sens où nous en faisons puisqu'elle n'implique aucune connaissance du monde ("fondement des symboles") ni a fortiori aucun process cognitif sur ces connaissances.

Octambre · 29 novembre 2022

il y a 52 minutes, Rama a dit :

Je crois que mon expression maladoite a rendu mon propos blessant, ce qui n'était pas mon but mais semble être l'effet obtenu. Mes excuses pour ça.

Oui j'ai un peu mal réagi, ça me prend trop à cœur cette histoire de toutes façons, je n'arrive pas à penser raisonnablement (malgré tous mes efforts, et c'est d'autant plus énervant). Donc je te présente mes excuses également.

il y a 59 minutes, Rama a dit :

L'ordinateur, lui, n'a pas d'émotion, et lorsqu'il produit une image, tu es la première entité sentiente à ressentir une émotion.

C'est vrai, il faut le rappeler. Merci d'avoir remis les choses de façons plus claires, pour moi en tous cas.

Laurence Veron-Dor · 12 décembre 2022

@Suisei Bonjour, ce sujet est très intéressant. J'ai tout justre commencé le tuto de Machine learnia sur le deep learning mais c'est assez compliqué pour moi car je ne suis pas très douée en maths. Et pour ne rien arranger, j'ai tout oublié du peu que j'avais appris quand j'étais jeune.

Je vais voir ce que ça donne quand on arrivera à la programmation. J'ai fait pas mal de javascript, mais pas beaucoup de python.

L'idée étant, si j'arrive à comprendre le tuto, de pouvoir ensuite coder quelque chose de perso. J'ai encore du mal à réfléchir à une aplication pratique très simple, car je ne comprends pas encore bien comment tout ça fonctionne.

Grâce aux liens trouvés ici et sur d'autres sites, j'ai pu trouver plusieurs sites d'IA.

Pour l'instant, je me suis amusée un peu sur Midjourney, Artbreeder et Dalle-e, mais comme je n'ai que les versions gratuites, je ne peux pas faire grand chose de bien.

Je travaille dans un Espace Public Numérique et j'ai fait tester aux collégiens de 6/5ème Craiyon (dont les résultats sont pas mal déformés), Stable diffusion et Gaugan, que je trouve plus intéressant car on peut influencer davantage le résultat. Je voulais utiliser des sites ne nécessitant pas de s'inscrire. Ca les a bien éclatés !

A titre perso, pour un défi, j'ai utilisé une image que j'avais réalisée avec Blender et je l'ai mise sur Gaugan, où j'ai fait pas mal de tests. Comme dans ce défi, ils n'étaient pas trop branchés IA, je me suis juste inspirée du résultat de Gaugan pour finaliser mon image, que j'ai redessinée sur Krita.

Je trouve qu'en tant que source d'inspiration, c'est assez intéressant, On peut s'en servir un peu comme des refs, mais en plus aléatoires.

Drovek · 13 décembre 2022

Je n'ai pas eu le temps de tout lire, mais je suis bien content que tu ai pris de ton temps pour expliquer tout cela. Ce poste mériterai d'etre mis bien plus en avant.

Au passage, très bonne idée de bousiller l'algo de recherche pour les IA avec des # tout pourris.

Je mets ton poste en favoris, meme si je ne suis vraiment pas doué en math, car ta rédaction est très bien faite et le sujet amené très intéressant :)

Merci !

otsoa · 19 décembre 2022

Très bonne vulgarisation.

Par contre j'ai pas mal testé Dalle E mini et les résultats étaient très mauvais a par pour obtenir des "ambiances" et du coup c'est très marrant à retoucher pour interpréter notre propre image. Mais j'ai aussi pas mal testé Stable Diffusion en local et avec la bonne combinaison d'artistes (et une bonne culture de "l'histoire de l'art") on peut avoir en sortie de très très bons résultats (sauf les doigts bien sur ^^). Du coups ça va surtout se jouer sur les valeurs personnel cette histoire, perso je me refuse à l'utiliser pour autre chose que des réfs, de vêtement par exemple.

Modifié 19 décembre 2022 par otsoa

J’ai codé une IA ! ( Retour sur l'IA encreuse )

Recommended Posts

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Popular Posts

Suisei

Suisei

Suisei

Posted Images

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

SimonC 1,143

Partager ce message

Lien à poster

Partager sur d’autres sites

vera 162

Partager ce message

Lien à poster

Partager sur d’autres sites

Neuf150 5,047

Partager ce message

Lien à poster

Partager sur d’autres sites

Spartan de DPS 12,182

Partager ce message

Lien à poster

Partager sur d’autres sites

m100 945

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096

Partager ce message

Lien à poster

Partager sur d’autres sites

Xuan 1,135

Partager ce message

Lien à poster

Partager sur d’autres sites

Beli Yaal 221

Partager ce message

Lien à poster

Partager sur d’autres sites

Erynaur 998

Partager ce message

Lien à poster

Partager sur d’autres sites

mymdessine 94

Partager ce message

Lien à poster

Partager sur d’autres sites

m100 945

Partager ce message

Lien à poster

Partager sur d’autres sites

Octambre 653

Partager ce message

Lien à poster

Partager sur d’autres sites

Suisei 1,096