Image 2.0 est sorti : ChatGPT fait un bond de géant qui aura beaucoup d’impact dans la génération d'images

SOURCE | 2 months ago

✨ Enhance your Social Media content with NViNiO•AI™ for FREE

À chaque mise à jour des outils de génération d'images par IA, les détails qui permettent d'identifier une vraie photo d'une fausse s'estompent. L'un des éléments encore flagrants reposait sur les textes incrustés dans la photo générée. Il y avait toujours des « coquilles », mots inventés ou des mélanges d'alphabet dans les textes. Désormais, cela va devenir un peu plus compliqué avec l'arrivée du tout nouveau modèle ChatGPT Images 2.0. Ce que Futura a pu constater, c'est que l'affichage des textes est désormais parfait. Si cela fonctionne aussi bien, c'est parce qu'il y a eu une petite révolution avec l'introduction de cette nouvelle version du modèle.

Mais d'abord, pourquoi est-ce que l'affichage pose problème depuis les débuts ? Parce que pour les générateurs d'images par IA, le texte associé à une image ne correspondait qu'à une infime partie des pixels. L'essentiel du travail reposait sur des textures, des couleurs, des ombres, des formes générales. Les scènes réalistes et artistiques étaient plutôt bien reproduites, mais pas le texte. Les lettres étaient déformées, les mots incohérents.

Vidéo de présentation de ChatGPT Image 2.0. © OpenAI

Un traitement plus lent

Avec Image 2.0, OpenAI a clairement changé de modèle. Si on ne sait pas vraiment la méthode employée, car elle n'a pas vraiment donné d'explications techniques, on suppose que l'entreprise s'est sans doute appuyée sur des mécanismes de génération d'images dits « autorégressifs ». Ces modèles génèrent une image progressivement, pixel par pixel, en prédisant chaque nouvel élément à partir des précédents. Le principe est identique à celui employé par les modèles de langage comme GPT.

Une affiche dans le style du cinéma Nouvelle Vague générée avec ChatGPT Image 2.0. © OpenAI

Parmi les rares explications techniques de son communiqué, OpenAI a souligné que ce nouveau modèle possède des « capacités de réflexion », cela lui permet de rechercher sur le Web, de créer plusieurs images à partir d'une seule commande et de vérifier ses créations.

OpenAI indique également qu'Images 2.0 possède une meilleure compréhension du rendu de textes non latins pour le japonais, le coréen, l'hindi et le bengali. La seule contrainte, que cette génération d'image prend plus de temps. L'avantage, c'est qu'il est, par exemple, possible de réaliser une bande dessinée dotée de plusieurs cases avec des textes parfaits dans les bulles. Le modèle Images 2.0 est dès à présent disponible pour tous les utilisateurs de ChatGPT.

✨ Enhance your brand's digital communication with NViNiO•Link™ : Get started for FREE here

Read Entire Article

Image 2.0 est sorti : ChatGPT fait un bond de géant qui aura beaucoup d’impact dans la génération d'images

Un traitement plus lent

Related

Deploy a Production-Ready NVIDIA AI-Q Blueprint on Oracle Cloud Infrastructure

Des puces 6 fois plus puissantes pour l’IA : IBM franchit une première frontière avec des puces empilées en 3D et sous le nanomètre !

Creating the NVIDIA Nemotron 3 Ultra NVFP4 Checkpoint with NVIDIA Model Optimizer

Here's how Gemini can help you avoid jetlag.

Trending

Popular

TOGO | Grandes ambitions énergétiques

États-Unis : Donald Trump remporte l’élection présidentielle par KO

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Au Kenya, des femmes transforment les voitures à essence en véhicules électriques