Image 2.0 est sorti : ChatGPT fait un bond de géant qui aura beaucoup d’impact dans la génération d'images

SOURCE | 2 days ago


Enhance your Social Media content with NViNiO•AI™ for FREE


À chaque mise à jour des outils de génération d'images par IA, les détails qui permettent d'identifier une vraie photo d'une fausse s'estompent. L'un des éléments encore flagrants reposait sur les textes incrustés dans la photo générée. Il y avait toujours des « coquilles », mots inventés ou des mélanges d'alphabet dans les textes. Désormais, cela va devenir un peu plus compliqué avec l'arrivée du tout nouveau modèle ChatGPT Images 2.0. Ce que Futura a pu constater, c'est que l'affichage des textes est désormais parfait. Si cela fonctionne aussi bien, c'est parce qu'il y a eu une petite révolution avec l'introduction de cette nouvelle version du modèle. 

Mais d'abord, pourquoi est-ce que l'affichage pose problème depuis les débuts ? Parce que pour les générateurs d'images par IA, le texte associé à une image ne correspondait qu'à une infime partie des pixels. L'essentiel du travail reposait sur des textures, des couleurs, des ombres, des formes générales. Les scènes réalistes et artistiques étaient plutôt bien reproduites, mais pas le texte. Les lettres étaient déformées, les mots incohérents.

Vidéo de présentation de ChatGPT Image 2.0. © OpenAI

Un traitement plus lent

Avec Image 2.0, OpenAI a clairement changé de modèle. Si on ne sait pas vraiment la méthode employée, car elle n'a pas vraiment donné d'explications techniques, on suppose que l'entreprise s'est sans doute appuyée sur des mécanismes de génération d'images dits « autorégressifs ». Ces modèles génèrent une image progressivement, pixel par pixel, en prédisant chaque nouvel élément à partir des précédents. Le principe est identique à celui employé par les modèles de langage comme GPT.

Une affiche dans le style du cinéma Nouvelle Vague générée avec ChatGPT Image 2.0. © OpenAI

Parmi les rares explications techniques de son communiqué, OpenAI a souligné que ce nouveau modèle possède des « capacités de réflexion », cela lui permet de rechercher sur le Web, de créer plusieurs images à partir d'une seule commande et de vérifier ses créations.

OpenAI indique également qu'Images 2.0 possède une meilleure compréhension du rendu de textes non latins pour le japonais, le coréen, l'hindi et le bengali. La seule contrainte, que cette génération d'image prend plus de temps. L'avantage, c'est qu'il est, par exemple, possible de réaliser une bande dessinée dotée de plusieurs cases avec des textes parfaits dans les bulles. Le modèle Images 2.0 est dès à présent disponible pour tous les utilisateurs de ChatGPT.


Enhance your brand's digital communication with NViNiO•Link™ : Get started for FREE here


Read Entire Article

© 2026 | Actualités Africaines & Tech | Moteur de recherche. NViNiO GROUP

_