Parmi les montagnes de découvertes que j’empile au fil du temps, certaines pépites surgissent bien plus tard… Un peu comme des trésors oubliés ! Étant trop vite passionné par tout et n’importe quoi, je lis énormément de sites d’actualités techniques et informatiques. Ce qui fait que j’ai toujours un nombre d’articles mis en attente relativement… important 😅.
Mais bon, ma vie ne vous intéressant pas forcément, venons-en aux faits ! Il y a quelques mois, j’ai mis de côté un article de l’excellent blog de Korben. Il traitait d’un outil pour générer des images photoréalistes localement sur son ordinateur et donc sans frais d’abonnement à un service tiers. L’idée me semblait élégante afin d’éviter les coûts récurrents pour DALL-E (ChatGPT). Mais ce qui m’a véritablement bluffé au final, ce sont les images produites par cet outil…
Fooocus de son petit nom s’avère être une interface utilisateur simplifiée pour Stable Diffusion, un projet plus complexe à prendre en main. Alors, si vous êtes curieux de savoir comment Albert Einstein s’est retrouvé à installer des panneaux solaires en Valais, je vous invite à prolonger encore un peu votre lecture 😊.
DALL-E, mes premiers pas avec l’intelligence artificielle qui génère des images
Si vous avez hiberné depuis trop longtemps, nous allons commencer par exposer ce qui s’est passé depuis quelques mois. La génération d’images à partir d’information descriptive et textuelle s’est répandue avec l’outil DALL-E de l’entreprise OpenAI. Les mêmes petits lutins ingénieurs qui se cachent derrière ChatGPT. DALL-E est un “modèle” d’intelligence artificielle capable de générer des images détaillées et créatives à partir de descriptions sous forme de texte. C’est un peu lui qui a permis au grand public de disposer de ce type d’outil depuis l’été 2022 environ (sauf erreur). Au même moment, un autre outil nommé Midjourney est sorti, mais s’avère moins facilement accessible pour le grand public (je n’ai pas encore testé). DALL-E a pu ainsi surfer sur la vague du gigantesque succès de ChatGPT en laissant peu de place aux autres solutions.
Avec le temps et un bon coup d’œil, on commence à reconnaitre les images et infographies générées par DALL-E (on est un peu envahi en même temps). On se rend compte que certains types de rendu font appel à des lignes similaires. La manière de construire des visages, des objets… Ce n’est pas un défaut en soi, mais ce n’est plus aussi “magique” qu’au début même si ça reste toujours incroyable !
L’une des images qui m’avait amusé de créer avec DALL-E reste l’illustration de première page pour l’article nommé “Du morse aux térabits secondes : L’épopée des technologies cuivre qui font Internet en Suisse“. Sur cette image, on voyait Samuel Morse (… l’inventeur du code Morse) sourire et se féliciter des premières lignes de cuivres installées dans les Alpes suisses. La capture d’écran du site a été ajoutée par la suite sur l’ordinateur, mais tout le reste est généré par DALL-E directement. On est déjà là dans une prouesse de technologie impressionnante. Mais ne vous emballez pas trop, car nous ne sommes qu’au début…
Fooocus, un nouveau projet pour générer des images
Avant de me perdre dans les méandres de mes idées qui vous promènent toujours à mille lieues de ou je veux vous emmener, je désirais vous parler dans cet article du projet Fooocus ! Mais manque de bol pour vous, je dois d’abord vous parler un peu de… Stable Diffusion 😁.
On a vu plus haut que DALL-E était un modèle d’intelligence artificielle entrainé pour générer des images. DALL-E souffre de quelques limites (peut-être volontaires ?) qui ne lui permettent pas de générer des images photoréalistes. Il est très doué pour créer des images artistiques et il le fait relativement vite et bien. D’autres projets se sont donc concentrés sur des images qui se rapprochent plus de la photographie et Stable Diffusion en fait partie. Le souci étant que la prise en main de Stable Diffusion n’est pas forcément intuitive et aisée. C’est pourquoi un développeur a décidé de lancer un nouveau projet, Fooocus.
Je parle trop tu dis ? Alors pour vous donner une première idée, l’image ci-dessous va vous fournir un aperçu… Non, ce n’est une photo et oui cet endroit n’existe pas.
Fooocus permet donc de très facilement générer des images avec un résultat surprenant. Là où DALL-E met l’accès sur la créativité et la rapidité, Fooocus (Stable Diffusion en général) met quant à lui l’accent sur la qualité.
Mais comment est-ce possible ?
Penchons-nous un instant sur le cœur de ces outils d’intelligence artificielle (IA). Ils fonctionnent grâce à une technologie avancée inspirée par notre propre façon de traiter les informations. Imaginez une immense médiathèque de photos et d’œuvres d’art que l’IA explore pour apprendre et comprendre comment les images sont construites. À partir de là, elle va apprendre à créer ses propres images en imitant ce qu’elle a vu et compris.
En termes simples, ces outils analysent et assimilent des motifs, des formes, des couleurs et des styles à partir de vastes collections d’images. Ce processus d’apprentissage leur permet ensuite de générer de nouvelles images basées sur les textes descriptifs qu’on leur fournit.
Cette capacité de transformer des mots en images visuelles est à la fois fascinante et complexe. Elle repose sur l’accumulation et l’analyse de grandes quantités de données visuelles, permettant à l’IA de *comprendre* et de recréer des styles et des sujets variés. C’est ce qui permet à DALL-E de générer des œuvres d’art créatives et à Stable Diffusion de créer des images qui se rapprochent du photoréalisme.
En résumé, sans entrer dans les détails techniques, ces outils d’IA sont comme des élèves qui apprennent en observant un grand nombre d’images, puis utilisent cette connaissance pour créer quelque chose de nouveau et d’unique. Mais il faut aussi compléter en avouant que la majorité de ces sociétés trainent actuellement des procès pour des violations de droits d’auteurs…
Et Samuel Morse, il ressemble à quoi avec Fooocus ?
À force, Samuel Morse va devenir la mascotte de MesGeekeries… mais bon, passons 😁. Histoire de continuer dans la même veine que l’image présentée en début d’article, je me suis demandé à quoi ressemblait Samuel Morse avec une description relativement similaire à celle utilisée sur DALL-E.
Incroyable n’est-ce pas ? Samuel Morse généré par Fooocus ressemble au… véritable Samuel Morse ! Fooocus a utilisé des images qui faisaient partie de son apprentissage pour générer de nouvelles photos. Pour rappel, Samuel Morse a vécu de 1791 à 1872 à l’autre bout de l’océan atlantique et il n’y a pas de document le montrant dans les montagnes et encore moins en Suisse.
On constate que les images sont un peu variables, forcément, mais que l’on reconnait le personnage sur la quasi-totalité d’entre elles. Les photos de portrait sont tout particulièrement impressionnantes comme on peut le voir ci-dessus.
Comment débuter avec Fooocus me direz-vous ?
Nous parlons ici d’un projet open source hébergé sur la plateforme GitHub. Rien compris, tu dis ? Si vous n’avez rien compris, je pense que vous pouvez déjà passer votre chemin malheureusement. Il ne s’agit pas d’un outil facile à prendre en main en deux clics, mais bien d’un truc plus complexe.
C’est pour ça que j’ai décidé de ne pas prendre le temps avec des explications techniques cette fois. Il faut juste savoir que le projet est hébergé sur la plateforme GitHub et que l’ensemble des instructions s’y trouvent. Dans tous les cas, celui-ci nécessite une machine possédant une carte graphique de la famille Nvidia RTX. Plus elle sera puissante, plus ça ira vite… Dans mon cas, depuis mon Mac, la génération d’image prend des plombes 😊 !
Quelle place pour la réalité à l’avenir
En conclusion, on peut se demander quelle place il restera dans les années à venir pour la réalité. Les médias et réseaux sociaux commencent déjà à déborder d’images générées. On se retrouvera de plus en plus avec du contenu autogénéré et de fiction. Pour nous qui découvrons ces outils aujourd’hui, cela semble aussi incroyable que le premier iPhone en 2007. Par contre, pour les générations à venir, il s’agira probablement d’un acquis qu’ils apprendront à maitriser et connaitre dès le début…
Nous naviguons donc désormais dans ce paysage numérique en pleine évolution vers l’intelligence artificielle. Il est donc crucial de rester conscients des implications de ces technologies. Ces outils, aussi incroyables soient-ils, nous rappellent la nécessité de marcher prudemment dans un monde où la frontière entre réalité et fiction devient au final de plus en plus floue.
Le paradoxe réside dans le fait que, malgré la nature abstraite et virtuelle de toutes ces créations, un ordinateur est fondamentalement un appareil concret, travaillant avec des signaux électriques simples pour manipuler des séquences de 1 et de 0…
BONUS : Et si Albert Einstein installait des panneaux solaires dans les alpes alors ?
Clairement, je vous ai appâté en vous parlant d’Albert Einstein qui installait des panneaux solaires dans les alpes… Alors ça donne quoi cette histoire ? Je vous laisse juger par vous-même !
pour moi (et désolé pour les personnes du marketing), la véritable IA, que l’on croise dans les fictions ci-après, n’existe pas encore.
– I, Robot (film avec Will Smith)
– Real Humans: 100% humain (série TV suédoise)
– Pluto (un animé en série sur Netflix)
parce qu’actuellement, cela n’est qu’un simple perroquet aux dimensions planétaires bourré d’algorithmes, certes complexes, mais restant des programmes informatiques.
Ah ça, c’est clair… La notion d’intelligence se réfère très probablement à la capacité d’apprendre et de créer sans intervention humaine des contenus en acceptant un langage “naturel”. Nous sommes encore très loin des exemples que tu cites et c’est avant tout des mots très marketing comme tu le dis très bien.
Très intéressant. J’utilise Midjourney pour me créer des images que je copie ensuite pour faire du dessin. Eh oui, je n’arrive pas à bien créer sans recopier, je suis un peu comme une IA en fait. Mais je me questionne sur l’unicité de la proposition de l’IA, comment suis-je sûr que l’image qu’elle me propose n’est pas à 98% similaire à une oeuvre d’un artiste que je ne connais pas, et qui pourrait m’attaquer pour plagia pour mon dessin que je pensais unique… Vaste sujet et vaste débat futur sur les droits d’auteurs entre autres.
Honnêtement, je ne pense pas que beaucoup d’artistes pratiquent la création sans « inspiration » externe. On voit d’ailleurs souvent dans les ateliers des rétroprojecteurs pour poser sur une toile un croquis ou une idée piquée ailleurs qui sera transformée/adaptée.
Mais c’est vrai que cela peut énormément aider pour le processus créatif. Après qui plagie qui en premier… Nous ne sommes qu’au début de la régulation !
Par contre faire tourner Fooocus sur Google Colab par exemple, coûte beaucoup moins cher que Midjourney si jamais.