DALL-E

DALL-E (ou DALL·E, à prononcer Dali, en référence à Salvador Dali) est un programme d'intelligence artificielle générative, capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí[2] - [3].

DALL-E

Description de cette image, également commentée ci-après

Image générée par DALL-E à partir de la consigne suivante « Ours polaire dans le désert » (donnée en anglais).

Informations
Créateur	OpenAI
Développé par	OpenAI
Fichier exécutable	images générées à partir de commandes naturelles
Première version	5 janvier 2021
Écrit en	GPT-3[1]
Supporte les langages	langage naturel
Langues	Anglais
Type	Intelligence artificielle générative
Site web	www.openai.com/blog/dall-e/

Chronologie des versions

DALL-E utilise une version à 12 milliards de paramètres[3] du modèle de langage GPT-3[1] pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d'un capybara triste »), et générer les images demandées[2]. Il peut créer des images d'objets réalistes (« un vitrail avec l'image d'une fraise bleue »), mais aussi des objets qui n'existent pas dans la réalité (ex. : « un cube avec la texture d'un porc-épic »)[4] - [5] - [6].

DALL-E a été cité comme le logiciel existant faisant le plus preuve de créativité[7].

Spécificité

Depuis les années 2000, de nombreux réseaux de neurones ont pu générer des images réalistes[2]. La spécificité de DALL-E est de pouvoir les générer à partir d'invites en langage naturel, qu'il « comprend », et « il échoue rarement »[2].

Code source

OpenAI n'a pas publié de code source pour l'un ou l'autre modèle, bien qu'une « démo contrôlée » de DALL-E soit disponible sur le site Web d'OpenAI, où la sortie d'une sélection limitée d'exemples d'invites peut être visualisée[3].

Des alternatives open source, formées sur de plus petites quantités de données, comme DALL-E Mini, ont été publiées par d'autres.

Selon la MIT Technology Review, l'un des principaux objectifs d'OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses »[8].

Histoire

Image créée par DALL-E 2 à partir du texte A Shiba Inu dog wearing a beret and black turtleneck (un Shiba Inu portant un béret et un col roulé noir).

DALL-E a été révélé par OpenAI le 5 janvier 2021[8].

En avril 2022, OpenAI a annoncé DALL-E 2 (affirmant qu'il pouvait produire des images photoréalistes à partir de descriptions textuelles), ainsi qu'un éditeur permettant de simples modifications de la sortie. Lors de l'annonce, le logiciel était encore en phase de recherche, avec un accès limité à des utilisateurs bêta présélectionnés. Le modèle pouvait encore faire de graves erreurs, y compris des erreurs qu'aucun humain ne ferait[9].

DALL-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d'art originales et réalistes à partir d'une description textuelle. Il peut combiner des concepts, des attributs et des styles »[10].

CLIP

DALL-E a été développé et annoncé au public en collaboration avec CLIP (Contrastive Language-Image Pre-training)[8].

CLIP est un modèle à part entière dont le rôle est de « comprendre et hiérarchiser » sa production[2].

Les images générées par DALL-E sont organisées par CLIP, qui présente les images de la plus haute qualité pour une invite donnée[8].

CLIP est un système de reconnaissance d'images[11] qui a été entrainé à comprendre et classer ces images[2] à partir de plus de 400 millions de paires d'images et de texte[3] extraits d'Internet (plutôt que sur un ensemble de données organisé d'images étiquetées comme ImageNet)[8]. CLIP associe les images à des légendes entières[8].

CLIP a été entrainé pour prédire quelle légende (parmi une « sélection aléatoire » de 32 768 légendes possibles) était la plus appropriée pour une image, lui permettant ensuite d'identifier des objets dans des images en dehors de son ensemble de formation[8].

Architecture

Le modèle baptisé Generative Pre-trained Transformer (GPT) a d'abord été développé par OpenAI, en 2018[12], en utilisant l'architecture Transformeur. La première itération, GPT, a été mise à l'échelle pour produire GPT-2 en 2019[13] ; et en 2020, il a été de nouveau mis à l'échelle pour produire GPT-3, avec 175 milliards de paramètres[3].

Le modèle de DALL-E est une implémentation multimodale de GPT-3[14] avec 12 milliards de paramètres[3] qui « échange du texte contre des pixels », entraînés sur des paires texte-image provenant d'Internet[8].

Il utilise l'apprentissage zéro coup pour générer une sortie à partir d'une description et d'un signal sans autre formation[15].

DALL-E génère plusieurs images en réponse aux invites.

Performance

Exemple d'images générées par DALL-E au départ des consignes suivantes[16] :

une bibliothèque médiévale au clair de lune ;
une bibliothèque médiévale au clair de lune (même consigne) ;
un codex sur une table dans une bibliothèque médiévale ;
un moine copiste au travail éclairé par une bougie ;
la silhouette d'un moine cistercien partiellement cachée derrière un rideau ;
gros plan sur la manche d'un moine cistercien tenant une dague à la main ;
clair-obscur d'un moine cistercien allongé sur le sol ;
clair-obscur d'un poignard sur le sol ;
silhouette d'un moine cistercien portant un codex dans un couloir sombre.

DALL-E est capable de générer des images dans une variété de styles, allant de l'imagerie photoréaliste[3] aux peintures et emoji.

Il peut également « manipuler et réorganiser » des objets dans ses images[3].

Une capacité notée par ses créateurs était le placement correct des éléments de conception dans de nouvelles compositions sans instruction explicite : « Par exemple, lorsqu'on lui demande de dessiner un radis daikon qui se mouche, sirote un café au lait ou monte sur un monocycle, DALL·E dessine souvent le mouchoir, mains et pieds à des endroits plausibles[17] ».

Alors que DALL-E présentait une grande variété de compétences et de capacités, lors de la sortie de sa démo publique, la plupart des reportages se sont concentrés sur un petit sous-ensemble d'images de sortie « surréalistes »[8] ou « excentriques »[18].

Plus précisément, la sortie de DALL-E pour la requête « une illustration d'un bébé radis daikon dans un tutu promenant un chien » a été mentionnée dans des articles de Input[19], NBC[20], Nature[21], et d'autres publications[3] - [22] - [23]. Sa production pour « un fauteuil en forme d'avocat » a aussi été notée[8] - [24].

Des capacités émergentes apparaissent parfois chez les logiciels basés sur l'apprentissage automatique :

DALL-E a appris à « remplir les blancs » et à déduire de nombreux détails appropriés sans invites spécifiques (ExtremeTech a noté qu'une invite à dessiner un pingouin portant un pull de Noël a donné des images de pingouins ne portant pas seulement des pulls, mais aussi des chapeaux de Père Noël, thématiquement liés[25] ; et Engadget a noté qu'à l'invite « une peinture de renard assis dans un champ en hiver », Dall a produit une image où les ombres étaient placées de manière appropriée[15].
DALL-E semble aussi avoir involontairement acquis des capacités de raisonnement visuel suffisantes pour résoudre les matrices de Raven (tests visuels souvent administrés aux humains pour mesurer l'intelligence)[26].
DALL-E a une compréhension des tendances visuelles et de conception ; selon ExtremeTech, « vous pouvez demander à DALL-E de produire une image de téléphone ou d'un aspirateur correspondant à un moment particulier du temps de temps spécifiée, et il comprendra comment ces objets ont changé[25] ». Engadget a également noté sa capacité inhabituelle à « comprendre comment les téléphones et autres objets changent avec le temps[15] ». DALL-E a été décrit, avec d'autres « IA étroites » comme AlphaGo, AlphaFold et GPT-3 comme « [générant] de l'intérêt pour savoir si et comment l'intelligence artificielle générale peut être atteinte[27] ».

DALL-E a été décrit comme « remarquablement robuste à de tels changements » et fiable dans la production d'images pour une grande variété de descriptions arbitraires[2].

Sam Shead, journaliste pour CNBC, a qualifié ses images de « décalées » et a cité Neil Lawrence, professeur d'apprentissage automatique à l'université de Cambridge, qui l'a décrit comme une « démonstration inspirante de la capacité de ces modèles à stocker des informations sur notre monde et généraliser d'une manière que les humains trouvent très naturelle ».

Shead a aussi cité Mark Riedl (professeur agrégé à la Georgia Tech School of Interactive Computing). Selon ce dernier, DALL-E a montré qu'il était capable de « mélanger de manière cohérente des concepts », ce qui est un élément clé de la créativité humaine. La démo de DALL-E a été remarquable pour produire des illustrations beaucoup plus cohérentes que les autres systèmes Text2Image vus ces dernières années[18]. Riedl, à la BBC s'est aussi dit « impressionné par ce que le système pouvait faire »[24].

Aspects éthiques et moraux, et impacts sociétaux

Les modèles de langage comme GPT-3 ont un potentiel bénéfique pour la société (ex. : auto-complétion de code et d'écriture, assistance grammaticale, génération de narration de jeu, amélioration des réponses des moteurs de recherche et de la réponse à des questions…), mais les chercheurs qui les étudient sont également conscient qu'« ils ont aussi des applications potentiellement dangereuses », et que leur demande en capacité de calcul intensif les rend, au moins au stade de l'apprentissage, très consommateurs d'énergie (et donc contributeurs au réchauffement climatique)[28].

Ainsi, les modèles de langage améliorés (comme GPT-3) améliorent grandement la qualité des textes et des images artificiellement générés, et disposent d'une adaptabilité bien plus grande que les modèles antérieurs, mais avec comme conséquence que distinguer le texte et les images synthétiques du texte écrit par l'homme et d'images réelles devient de plus en plus difficile, voire impossible[28].

Ces modèles linguistiques « intelligents » ont un fort potentiel d'applications bénéfiques, mais aussi de conséquences ou d'applications néfastes[28]. C'est pourquoi avant d'éventuellement largement diffuser ce type d'outil, des chercheurs étudient leur efficacité énergétique, leurs méfaits potentiels (pour pouvoir les atténuer). En particulier ils étudient les problèmes de partialité, d'équité et de représentation, problèmes qui peuvent apparaitre spontanément en raison de « contamination des données » notamment ; GPT-3 peut en effet intégrer :

des préjugés sexistes, raciaux et religieux (d'autres catégories de préjugés existent très probablement dans ces logiciels, encore à étudier) ;
des facteurs d'inéquité ;
d'autres types de discriminations liées aux biais et contenus des corpus et bases de données qu'il utilise pour son auto-apprentissage (une étude publiée en 2020 « indique que les modèles formés à Internet ont des biais à l'échelle d'Internet ; les modèles ont tendance à refléter les stéréotypes présents dans leurs données de formation »[28]).

Le scandale Facebook-Cambridge Analytica[29] - [30]/AggregateIQ et l'utilisation du logiciel Ripon[31] qui semblent avoir permis l'élection de Donald Trump[30] - [32], puis le Brexit[33], et la manipulation frauduleuse d'une vingtaine d'élections dans le monde ont montré la réalité d'un autre risque : celui d'utilisations abusives délibérées, par exemple pour la désinformation (de la publicité à la propagande politique…), l'hameçonnage, l'abus des procédures légales et gouvernementales, la rédaction frauduleuse d'articles, d'ouvrages ou d'essais universitaires, ou d'œuvres d'art ; l'ingénierie sociale[28].

Au début des années 2020, OpenAI et divers chercheurs cherchent donc aussi à « analyser les impacts sociétaux » que peut générer DALL-E et/ou le programme GPT-3, par exemple s'ils sont détournés pour produire de faux textes et de fausses images ou vidéo pouvant donner l'impression d'une vérité ou au moins d'une parfaite plausibilité et cohérence[34] et « le potentiel de biais » de ce logiciel avant de le publier pour un usage général[18].

Ces intelligences artificielles sont particulièrement susceptibles d'être mal utilisées et/ou sciemment détournées pour des usages illégaux, non-éthiques et sociétalement dangereux, on cherche à faire en sorte qu'ils soient en mesure de se défendre de tels usages[28]. Dans le monde, plusieurs Partenariats sur l'IA visent à traiter ces sujets, de manière plus ou moins pluridisciplinaire et collaborative, dont sous l'égide de l'OCDE.

Consommation d'énergie et contribution à l'effet de serre

Dans un monde aux ressources finies, et dans le contexte du réchauffement climatique, le rendement énergétique et la soutenabilité des intelligences artificielles deviennent un enjeu majeur[28].

Le modèle de langage amélioré sous-jacent, ainsi que les outils de génération d'images doivent en effet être entrainés. Ceci se fait généralement à partir du Web et nécessite une énorme puissance de calcul, et est donc énergivore : à titre d'exemple, pour former le GPT-3 à 175 milliards de paramètres utilisé par DALL-E, il a fallu « plusieurs milliers de pétaflops-jours de calcul pour son temps de pré-formation (contre quelques dizaines de pétaflops-jours pour un modèle GPT-2 à 1,5 milliard de paramètres) »[28].

Des modèles comme GPT-3 sont cependant ensuite étonnamment efficaces une fois entrainés : même avec le GPT-3 à 175 milliards de paramètres complet, la génération de 100 pages de contenu à partir d'un modèle formé peut alors ne consommer qu'environ 0,4 kWh, ou soit quelques centimes en coût énergétique[28]. L'impact ou la dette carbone du système sera justifiée par l'usage ou des messages qu'on en fera (fonctions gadgets, jeux/cinéma, publicité, ou usages pédagogiques, scientifiques, etc.).

Des progrès algorithmiques associés à des techniques de « distillation de modèles » et des usages collaboratifs permettent d'ensuite diminuer le coût de ces modèles dans des contextes appropriés[28], mais toujours avec le risque d'effet rebond bien connu des économistes.

Prospective

DALL-E annonce « l'aube d'un nouveau paradigme d'IA connu sous le nom d'IA multimodale », dans lequel les systèmes seraient capables de combiner des données et de traduire des données entre plusieurs types d'informations.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « DALL-E » (voir la liste des auteurs).

(en) Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah, « Language Models are Few-Shot Learners », arXiv:2005.14165 [cs],‎ 22 juillet 2020 (lire en ligne, consulté le 21 avril 2022).
(en) Devin Coldewey, « OpenAI’s DALL-E creates plausible images of literally anything you ask it to », sur TechCrunch, 6 janvier 2021 (consulté le 20 avril 2022).
(en-US) « OpenAI debuts DALL-E for generating images from text », sur VentureBeat, 5 janvier 2021 (consulté le 20 avril 2022).
(en-US) « OpenAI’s text-to-image engine, DALL-E, is a powerful visual idea generator », sur VentureBeat, 16 janvier 2021 (consulté le 20 avril 2022).
(en) Mihai Andrei, « This AI module can create stunning images out of any text input », sur zmescience.com, 8 janvier 2021 (consulté le 20 avril 2022).
(en) Bryan Walsh, « A new AI model draws images from text », Axios, 5 janvier 2021 (consulté le 2 mars 2021).
(en) Rob Toews, « AI And Creativity: Why OpenAI's Latest Model Matters » [archive du 12 février 2021], Forbes, 18 janvier 2021 (consulté le 2 mars 2021).
(en) Will Douglas Heaven, « This avocado armchair could be the future of AI », MIT Technology Review, 5 janvier 2021 (consulté le 5 janvier 2021).
(en) Jeremy Kahn, « Move over Photoshop: OpenAI has just revolutionized digital image making », Fortune, 6 avril 2022 (consulté le 10 avril 2022).
(en) « DALL·E 2 », OpenAI (consulté le 6 avril 2022).
(en) « For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions » [archive du 6 janvier 2021], Synced, 5 janvier 2021 (consulté le 2 mars 2021).
(en) Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever, « Improving Language Understanding by Generative Pre-Training » [(date=26 January 2021 ; archivage) archive] [PDF], OpenAI, 11 juin 2018 (consulté le 23 janvier 2021), p. 12.
(en) Alec Radford, Jeffrey Wu, Rewon Child et David Luan, « Language models are unsupervised multitask learners », OpenAI, vol. 1, n^o 8,‎ 14 février 2019 (lire en ligne [archive du 6 février 2021] [PDF], consulté le 19 décembre 2020).
(en) Auteur inconnu, « Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models », ..
(en) Steve Dent, « OpenAI's DALL-E app generates images from just a description » [archive du 27 janvier 2021], Engadget, 6 janvier 2021 (consulté le 2 mars 2021).
Les consignes ont été données en anglais :
1. a moonlit medieval library
2. a moonlit medieval library (2)
3. a codex on a table in a medieval library
4. a copyist monk at work lit by a candle
5. a figure of a Cistercian monk partially hidden behind a curtain
6. close-up on the sleeve of a Cistercian monk holding a dagger in his hand
7. chiaroscuro of a Cistercian monk lying on the ground
8. chiaroscuro of a dagger on the floor
9. figure of a Cistercian monk carrying a codex in a dark corridor.
(en) Thom Dunn, « This AI neural network transforms text captions into art, like a jellyfish Pikachu » [archive du 22 février 2021], Boing Boing, 10 février 2021 (consulté le 2 mars 2021).
(en) Sam Shead, « Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab », sur CNBC, 8 janvier 2021 (consulté le 20 avril 2022).
(en) Mehreen Kasana, « This AI turns text into surreal, suggestion-driven art » [archive du 29 janvier 2021], Input, 7 janvier 2021 (consulté le 2 mars 2021).
(en) Melanie Ehrenkranz, « Here's DALL-E: An algorithm learned to draw anything you tell it » [archive du 20 février 2021], NBC News, 27 janvier 2021 (consulté le 2 mars 2021).
(en) Emma Stove, « Tardigrade circus and a tree of life — January's best science images » [archive du 8 mars 2021], Nature, 5 février 2021 (consulté le 2 mars 2021).
(en) Will Knight, « This AI Could Go From 'Art' to Steering a Self-Driving Car » [archive du 21 février 2021], Wired, 26 janvier 2021 (consulté le 2 mars 2021).
(en) Rachel Metz, « A radish in a tutu walking a dog? This AI can draw it really well », CNN, 2 février 2021 (consulté le 2 mars 2021).
(en) Jane Wakefield, « AI draws dog-walking baby radish in a tutu » [archive du 2 mars 2021], British Broadcasting Corporation, 6 janvier 2021 (consulté le 3 mars 2021).
(en) Ryan Whitwam, « OpenAI's 'DALL-E' Generates Images From Text Descriptions » [archive du 28 janvier 2021], ExtremeTech, 6 janvier 2021 (consulté le 2 mars 2021).
(en) Dale Markowitz, « Here's how OpenAI's magical DALL-E image generator works » [archive du 23 février 2021], TheNextWeb, 10 janvier 2021 (consulté le 2 mars 2021).
(en) Stefano Nichele, « Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve », Genetic Programming and Evolvable Machines, vol. 22,‎ 2021, p. 141–145 (DOI 10.1007/s10710-021-09398-5).
(en) Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah (…), « Language Models are Few-Shot Learners », arXiv:2005.14165 [cs],‎ 22 juillet 2020 (lire en ligne, consulté le 21 avril 2022).
(en-GB) « Facebook scandal 'hit 87 million users' », sur BBC News, 4 avril 2018 (consulté le 21 avril 2022).
(en) Cadwalladr C, « The great British Brexit robbery: how our democracy was hijacked » [PDF], The Guardian, 7 mai 2017.
(en) « The Aggregate IQ Files, Part One: How a Political Engineering Firm Exposed Their Code Base », sur upguard.com, 26 mars 2018 (consulté le 21 avril 2022).
(en) Colin J Bennett, « Trends in Voter Surveillance in Western Societies: Privacy Intrusions and Democratic Implications », Surveillance & Society (en), vol. 13, n^os 3/4,‎ 26 octobre 2015, p. 370–384 (ISSN 1477-7487, DOI 10.24908/ss.v13i3/4.5373, lire en ligne, consulté le 26 janvier 2021).
(en-GB) Patrick Foster et Martin Evans, « Exclusive: How a tiny Canadian IT company helped swing the Brexit vote for Leave », sur The Telegraph, 24 février 2017 (ISSN 0307-1235, consulté le 21 avril 2022).
(en) Thomas Macaulay, « Say hello to OpenAI's DALL-E, a bot that creates weird images from text », sur TNW, 6 janvier 2021 (consulté le 20 avril 2022).

Voir aussi

Liens externes

Site officiel
Ressource relative à la musique :
- (en) MusicBrainz
(en) Un forum consacré aux images créées par DALL-E 2, sur Reddit.

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.

DALL-E

Spécificité

Code source

Histoire

CLIP

Architecture

Performance

Aspects éthiques et moraux, et impacts sociétaux

Consommation d'énergie et contribution à l'effet de serre

Prospective

Notes et références

Voir aussi

Articles connexes

Liens externes