La révolution de l'IA dans l'art visuel: ce que vous devez savoir

Image illustrant l'article de blog sur la génération d'image par l'IA

19.10.2023

Rédigé par Lucien Piccand

L'année 2023 a été charnière en termes de nouvelles technologies, avec un bond en avant spectaculaire de l'intelligence artificielle générative. On pense en premier lieu à la démocratisation de ChatGPT et ses 1.5 milliard d'utilisateurs mensuels.

Toutefois, on oublie aussi que la génération d'images est déjà bien présente dans nos vies.

Si vous regardez régulièrement des vidéos sur YouTube, vous êtes peut-être déjà tombé·e sur des illustrations photoréalistes dans ce style:

Image représentant de l'art visuel généré par l'IA

Ou alors, sur les réseaux sociaux, vous avez peut-être vu ces articles qui présentent des personnages stéréo typiques de divers pays ou cantons suisses générés par IA:
Comment l'IA voit les "habitants typiques" des cantons suisses
Comment l'IA voit les habitants typiques de 20 pays

Il s'agit d'images générées par une intelligence artificielle en ligne, principalement avec un logiciel nommé Midjourney. Cet outil fonctionne ainsi: dans une interface de messagerie – Discord en l'occurrence – vous écrivez une requête (en anglais: prompt) dans laquelle vous décrivez le contenu de l'image que vous souhaitez, par exemple:
"- Imagine un bureau en open-space, décoré sur le thème des caméléons et de la jungle, dans un style photographique"
puis, vous appuyez sur Enter.

Midjourney va alors générer 4 images comme celles-ci. En 30 secondes environ.

L'outil n'est bien évidemment pas limité à un style photographique. Vous pouvez générer des logos, des peintures dans le style de Brueghel, des images surréalistes, il vous suffit d'indiquer le style désiré dans votre requête.
L'imagination est votre seule limite.

Un combat de reines en Valais, dans le style de Brueghel.

Vous comprendrez que cet outil change la vie des créateur·rice·s de contenu.

Certes, l'outil a ses limites et ne remplace pas encore le travail d'un graphiste – Midjourney ne sait pas générer de texte, par exemple – mais on peut très bien imaginer que l'intelligence artificielle soit utilisée pour générer des éléments graphiques distincts, que le graphiste mettra en page avec d'autres logiciels ensuite.

Les développeurs Web et vidéastes indépendants, qui ont ponctuellement besoin d'illustrations, et qui n'ont pas nécessairement le temps de les rechercher ni de les créer, y verront aussi un gain de temps spectaculaire.

De plus, les images créées depuis un compte payant sont la propriété de la personne qui les a générées.

Une ville futuriste similaire à Berne, vue par Midjourney

Combien ça coûte?

Midjourney est un outil payant et propriétaire: à l'heure actuelle, l'abonnement mensuel de base à 10$ (9CHF) par mois donne droit à 200 minutes (3h20) de calcul sur les serveurs de Midjourney par mois, soit quelques centaines d'images.

Avantages de Midjourney

Un énorme gain de temps en productivité, une fois que l'on comprend le fonctionnement de l'outil.
Plus de problèmes de droits d'auteur: les images que vous générez vous appartiennent.
Une entreprise externe met à disposition son infrastructure informatique pour générer les images, c'est donc très rapide!
Midjourney génère des images, mais possède aussi des outils pour générer des variantes d'une image, pour retoucher (= refaire la génération sur) une partie de l'image, ou pour "dézoomer" (= générer du contenu supplémentaire autour d'une image; cette fonction aussi appelée outpainting).
Midjourney peut générer des images sur la base d'une photo, ou fusionner deux photos. Mais dans tous les cas, l'IA ajoutera sa "patte" artistique au résultat.
Évitez les problèmes de droit à l'image et les coûts des stocks photos en générant des photos de personnes inexistantes, dans un style photographique quasi parfait. Ceci n'est pas limité à Midjourney, d'autres outils le font aussi, par exemple: thispersondoesnotexist.com

Inconvénients de Midjourney

L'une des principales caractéristiques de Midjourney qui peut rebuter certains utilisateurs est que les images générées se retrouvent dans une base de données publique. Bien que vous restiez propriétaire de vos images, rien n'empêche quelqu'un d'autre de tomber dessus (notamment via un outil de recherche d'images similaires) et d'en générer des variantes. On peut pallier ce problème en utilisant Midjourney dans un groupe de messagerie privé, au lieu d'utiliser le groupe public pour les débutants.
Midjourney n'est disponible, à l'heure actuelle, que sous forme de plug-in sur la messagerie Discord, mais une solution officielle pour ne plus dépendre de cette messagerie est en cours de développement.
À chaque fois, Midjourney génère une image aléatoire unique. Il est donc très difficile d'obtenir plusieurs fois le même résultat. Midjourney sait modifier des images précédemment créées par lui, mais ne sait pas travailler sur des images externes en les gardant à l'identique : l'outil va dans tous les cas générer une nouvelle image unique à chaque fois.
Midjourney, et tous les générateurs d'images en général, comprennent encore mal le français. Même si cela peut parfois fonctionner, il est préférable d'écrire les requêtes en anglais pour plus de précision.
Midjourney appartient à une entreprise américaine qui ne souhaite pas que certains sujets apparaissent dans les images générées (p.ex. le sang, la nudité, la drogue, le blasphème religieux, etc.) Ce blocage strict implémenté dans le générateur d'images peut aussi être considéré comme un avantage, dans le sens où les images générées sont pour tous publics. Certaines IA concurrentes comme Stable Diffusion n'ont pas cette limitation.
De plus, Midjourney ne sait pas générer de texte, et ne sait pas encore bien faire la distinction entre plusieurs objets. Si je lui demande de générer un homme habillé en bleu tenant un livre et une femme habillé en rouge tenant un panier, je peux me retrouver avec un homme tenant un panier rouge, ou des étagères pleines de livres et de paniers dans l'arrière-plan, etc. C'est ce qu'on appelle "l'hallucination" de l'intelligence artificielle.

Existe-t-il un générateur d'images "open source" que je peux installer sur mon ordinateur?

Midjourney n'est pas installable sur sa propre machine, mais ce n'est pas le seul outil générateur d'images existant. Que ceux qui préfèrent l'open-source se rassurent, il existe un concurrent gratuit, nommé Stable Diffusion, qui fait exactement la même chose que Midjourney. La différence principale est que Stable Diffusion doit être installé sur votre propre ordinateur, ce qui nécessite de taper un certain nombre de commandes et de lignes de code, et la génération d'images prendra autrement plus de temps si vous n'avez pas une machine dernier cri. Toutefois, avec SD vous gardez le contrôle complet sur votre intelligence artificielle et sur les éventuels problèmes de droits et de confidentialité.

Voici une image générée par Stable Diffusion avec la requête "Landscape of Gruyère, Switzerland" (paysage de Gruyère, Suisse). On constatera que SD a bien compris qu'il s'agit de la région, pas du fromage!

Un vaste univers, en constante évolution

D'autres concurrents notables dans le domaine sont Dall-E, qui est capable de générer du texte dans les images, et Craiyon.com qui est un petit outil gratuitement utilisable, si vous souhaitez découvrir la génération d'images par vous-même.

Quoi qu'il en soit, les années à venir promettent d'être révolutionnaires du point de vue de cette technologie, car, outre les images, les développeurs sont déjà à l'œuvre sur des IA génératives de vidéos, d'audios, et de modèles 3D. L'avenir s'annonce passionant!