Illustrations par DALL-E

Comprendre les bases de l’IA générative d’images

Publicités

Comprendre les concepts clés pour savoir manipuler une IA Générative d’Images

Après avoir découvert ce qu’est une IA générative d’images, il est temps d’entrer dans le vif du sujet : comment les utiliser efficacement ? Dans cet article, nous allons explorer les différents outils disponibles et comprendre les éléments clés qui influencent la création d’images.

Les principales IA génératives d’images

Il existe plusieurs outils et plateforme pour générer des images à partir de texte. Voici un tour d’horizon des plus connus :

  • DALL·E (OpenAI) : Très accessible, il permet de créer des images en quelques secondes à partir d’un simple texte. Points forts : qualité et cohérence des images. Points faibles : contrôle limité sur les détails.
  • Midjourney : L’un des favori des artistes pour ses rendus impressionnants et esthétiques. À utiliser via Discord. Points forts : style artistique unique. Points faibles : un manque de contrôle précis.
  • Stable Diffusion : Open-source et ultra personnalisable. Il permet une grande liberté de modification. Points forts : contrôle total et options avancées, outils gratuits en ligne pour tester. Points faibles : prise en main plus technique.
  • Runway ML : Conçu pour la création de contenus vidéo et image avec des IA avancées. Points forts : intégration multimédia. Points faibles : options limitées en version gratuite.
  • Leonardo AI : Un outil puissant pour créer des designs et des illustrations avec une grande variété de styles. Points forts : interface conviviale. Points faibles : accès limité sans abonnement.
  • TensorArt : Une plateforme qui propose une interface intuitive pour générer et modifier des images via l’IA. Points forts : simplicité d’utilisation et flexibilité. Points faibles : certaines fonctionnalités nécessitent un abonnement.

Chaque IA a ses spécificités, et ton choix dépendra de tes besoins : rapidité, qualité, personnalisation ou liberté d’utilisation… coût ! Faites bien attention aux licences, au prix demandé en regard du nombre de créations possibles par jour ou par mois.

Comprendre les éléments essentiels

Pour mieux maîtriser ces outils, voici quelques concepts clés à connaître et deux trois mots sur la manière dont ils interagissent :

  • Modèles : Un modèle est la base de l’IA générative. Il s’agit d’un réseau de neurones entraîné sur un grand nombre d’images pour apprendre à en créer de nouvelles. Certains modèles sont généralistes et peuvent produire une grande variété d’images, tandis que d’autres sont spécialisés dans un style précis (peinture, anime, photographie, etc.).
    • Exemple : un modèle comme « DreamShaper » est conçu pour des images artistiques tandis qu’un modèle « RealisticVision » produit des rendus photo-réalistes.
  • LORA (Low-Rank Adaptation) et Lycoris : Ces techniques permettent de modifier un modèle existant pour lui apprendre de nouveaux styles ou concepts sans avoir besoin de l’entraîner intégralement. C’est une approche légère et efficace pour personnaliser les rendus de l’IA.
    • Exemple : un LORA « Cyberpunk » appliqué à un modèle généraliste ajoutera des néons et un style futuriste aux images.
    • Lycoris est une amélioration de LORA, permettant une adaptation encore plus fine et efficace, notamment pour des styles très détaillés.
  • Prompts et Prompts négatifs : Le prompt est la description textuelle qui guide l’IA. Le prompt négatif permet d’exclure certains éléments indésirables.
    • Exemple : « un chat sur une plage » (prompt), avec « pas de brouillard, pas de déformation » (prompt négatif) évitera des erreurs courantes.
  • Seed : Un nombre qui sert de point de départ pour la génération d’image. Utiliser le même seed avec le même prompt permet de recréer une image identique(enfin… preque).
    • Exemple : En utilisant le seed 42 avec un prompt « cheval blanc dans une forêt magique », on devrait parvenir à obtenir toujours la même image.
  • Embeddings : Des références textuelles qui enrichissent la compréhension de l’IA pour des styles ou thèmes particuliers.
    • Exemple : Un embedding « art nouveau » aidera l’IA à produire des images avec des motifs et un style précis.
  • Samplers et Scheduler : Le sampler détermine comment l’image est construite pas à pas(en gros, un processus mathématique), et le scheduler régule ce processus pour optimiser le résultat.
    • Exemple : Le sampler Euler A est rapide et donne des résultats fluides, tandis que DPM++ SDE produit plus de détails.
  • Étapes d’échantillonnage : Plus le nombre d’étapes est élevé, plus l’image sera affinée, mais cela prendra plus de temps. Souvent aussi les outils en ligne feront augmenter le coût de la création si ce nombre devient important.
    • Exemple : Une image à 20 étapes peut être floue, tandis qu’à 50 étapes elle sera plus nette. Remarquez que certains modèles sont allergiques à un nombre important d’étapes, le résultat est tout moisi.
  • Guidance Scale : Un paramètre qui définit à quel point l’IA doit suivre précisément le prompt. Une valeur trop haute peut donner une image trop forcée, une valeur trop basse peut la rendre trop abstraite. Cela étant, notez qu’un score bas « autorise » (en gros) l’outil à ne pas trop tenir compte de votre prompt : si vous avez peu d’idée ou d’attente, ça peut être sympa de laisser aller l’outil. Un pincée de chaos, quoi !
    • Exemple : Une guidance scale de 7 donnera un bon équilibre entre liberté et précision, tandis qu’une valeur de 15 forcera trop l’IA à respecter le prompt, rendant l’image artificielle.

Tous ces éléments interagissent pour donner naissance à l’image finale. Par exemple, un bon prompt combiné à un seed spécifique et un sampler adapté permet d’obtenir des résultats bien plus précis et cohérents.

Ça donne quoi tout ça en vrai ? Quelques exemples de réalisations.

Pour vous aider à y voir un peu plus clair, je me suis prêté à l’exercice. En voici les conditions : un prompt simple, différents modèles et une utilisation d’un LORA pour améliorer le résultat.

D'ailleurs en passant : la plupart des IA, des modèles, et des différents attributs qui gravitent dans cette galaxie comprennent... l'anglais ! Même si certaines plateformes vous proposent une traduction à la volée de votre prompt du français vers l'anglais (ou qu'ils essaient de s'en sortir avec le français), pensez à travailler votre prompt par vous-mêmes. S'il faut, ayez recours à des outils comme Deepl, Reverso ou autres pour bien juger du niveau de traduction. Cela peut paraître parfois assez surprenant.

L’idée est de partir d’un prompt relativement simple ; le voici… et in english ;)
generate one minimalistic yet modern and cyberpunk logo for a cyber security team, text « Cybergate », with red blue pink black colors, simple shapes, shield, neon, grey background

On n’a sincèrement pas grand chose : une intention (créer un logo), une direction artistique (du cyberpunk), quelques couleurs et puisque c’est un logo, j’indique tout de même que j’aimerais bien inclure une forme de bouclier.

On reparlera plus en détail du « prompt » : c’est très important, et chaque mot suivant son placement peut changer la donne.

J’ai proposé ce prompt à deux outils : StableDiffusion Online et TensorArt. Chez Tensor, j’ai joué avec trois paramètrages différents.

Quant aux résultats, les voici :

Le premier, le plus grand, a été réalisé avec le site StableDiffusion, sans aucun ajout de descriptif en négatif, pas de LORA, pas d’application de styles pré-construits. Bref, c’est un résultat des plus basiques. On note d’emblée un vrai souci de ces modèles parmi les plus simples : la gestion du texte. Le reste est globalement respectueux des consignes.

Le second en haut à droite repose sur un modèle Midjourney (éminemment connu, à utiliser via Discord). Ok pour le texte, et somme toute un certain cachet en terme de créativité.

Le troisième juste en dessous a été créé avec un Modèle « StableDiffusion 1.5 » sans LORA. Je ne suis pas très fan, sincèrement.

Les quatrième et cinquième qui se trouvent en bas à gauche et à droite : ils sont basés sur un modèle que j’affectionne et avec lequel je bosse pas mal, il s’appelle FLUX. La différence entre les deux compositions, c’est que celui de droite à en plus un LORA pour améliorer la gestion du texte.

Et pour le plaisir, un petit dernier… qui est une variation proposée par FLUX avec le LORA LogoText. Exactement le même prompte, créé durant le même « run » que la cinquième proposition ci-dessus, et pas du tout le même style. Curieux, n’est-ce pas, d’obtenir des propositions aussi différentes en partant exactement des mêmes instructions ? Cela fait partie du charme des outils de génération d’images qui peuvent vous procurer des résultats dépassant vos attentes mais qui a l’inverse peuvent aussi générer pas mal de frustration parce qu’ils sont incapables de retranscrire une idée que vous auriez trop précisément en tête.

Et ensuite ?

Maintenant que nous avons vu les bases, passons à la pratique ! Dans le prochain article, nous verrons comment utiliser l’interface web de Stable Diffusion pour créer tes premières images et ajuster tous ces paramètres facilement.

Alors, prêts à passer à l’action ?

S’il y a des axes de travail, des envies de styles ou de rendus particuliers, que vous souhaitez aborder, signalez-les moi en commentaire !

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.