Après Gemini 2 quelques jours plus tôt, Google dévoile Veo 2 (vidéos) et Imagen 3 (images), deux modèles de génération ultra sophistiqués. Le moment de l’annonce n’est certainement pas une coïncidence : Google bloque OpenAI.
Dans la guerre pour l’intelligence artificielle générative, OpenAI et Google sont certainement les deux figures majeures. Le premier a transformé l’industrie avec ChatGPT, le second peine à retrouver sa position naturelle de leader. Google rattrape progressivement son retard sur OpenAI, notamment avec son écosystème Gemini qui ne cesse de gagner en capacité.
Comment agacer OpenAI, qui fait actuellement une annonce par jour ? En le parasitant avec ses propres annonces, évidemment. Après Gemini 2 la semaine précédente, Google a annoncé le 16 décembre Veo 2 et Imagen 3, deux nouveaux modèles de génération de vidéo et d’images. Son communiqué de presse est sorti 30 minutes avant le 8e jour des annonces d’OpenAI.
Veo 2 : Google met en avant ce que Sora ne fait pas bien
Dans son communiqué, Google présente Veo 2 comme le meilleur outil de génération vidéo du secteur. Le successeur de Veo 1, annoncé en mai 2024, est capable « comprendre la physique et les mouvements du monde réel, le tout en définition 4K » explique Sundar Pichai, le patron de Google. Pourquoi avancer ces arguments ? Car ce sont là les points faibles de Sora, l’outil lancé par OpenAI une semaine plus tôt.
Veo 2 est capable d’imiter les genres cinématographiques, de reproduire le style d’un objectif, de suggérer des effets et de créer des vidéos de plusieurs minutes, là où Sora se contente de secondes. Les exemples publiés par Google sont assez impressionnants, avec des résultats finaux qui ressemblent à de vraies vidéos. Google affirme que Veo 2 hallucine très peu, ce qui réduit le risque d’avoir une main à six doigts. L’outil peut être testé avec une file d’attente, même si la disponibilité en Europe est logiquement bloquée.
Imagen 3 : Google améliore son modèle de génération d’images
Outre Veo 2 pour les vidéos, Google profite de son communiqué pour dévoiler Imagen 3, la nouvelle version de son modèle de génération d’images. Dans un contexte de battage médiatique autour de Grok et d’Elon Musk, avec son modèle qui reproduit des visages connus, Google affirme proposer un modèle capable de « générez des images plus lumineuses, mieux composées, des styles artistiques plus variés avec une plus grande précision, du photoréalisme à l’impressionnisme, de l’abstrait à l’anime ».
Actuellement, Imagen 3 n’est pas intégré à Gemini. Le modèle est disponible auprès d’ImageFX, l’outil de Google pour expérimenter sa nouvelle IA. A terme, on imagine qu’il sera possible de générer des images à partir du chatbot.
Qu’en est-il d’OpenAI ? L’entreprise n’a pas encore dévoilé de nouvelle version de DALL-E, son modèle de génération d’image, mais tout porte à croire que ce sera l’une des dernières annonces des 12 jours de son calendrier de l’Avent.