Google tire ses armes contre OpenAI dans la guerre de l’IA générative. DeepMind, le laboratoire de recherche en IA de la célèbre firme de Mountain View, a dévoilé lundi Veo 2, une nouvelle génération de son générateur vidéo IA. Ce nouveau produit du géant du web contre-attaque Sora, un outil similaire qu’OpenAI a mis à disposition du grand public la semaine dernière, promettant de meilleurs résultats que la concurrence. Succédant à Veo annoncé en mai, Veo 2 permet de créer des vidéos à la demande à partir d’une requête textuelle. Il est capable de générer du contenu atteignant une définition allant jusqu’à 4K (contre 1080p pour Sora) et une durée allant jusqu’à « plusieurs minutes ».
Apportant « une meilleure compréhension de la physique du monde réel et des nuances du mouvement et de l’expression humaine », Veo 2 est capable d’imiter les genres et les effets cinématographiques. Il peut par exemple réaliser des clichés spécifiques, comme un travelling en contre-plongée, un gros plan, ou encore suggérer l’utilisation d’un objectif 18 mm ou l’ajout d’une faible profondeur de champ. Les exemples présentés par Google montrent des films d’animation et autres séquences d’un réalisme saisissant.
Google souligne le fait que Veo 2 est moins sujet aux « hallucinations », phénomènes qui font apparaître des détails indésirables, comme des doigts supplémentaires ou des objets inattendus, par rapport aux modèles d’IA concurrents.
Google DeepMind a également levé le voile sur Imagen 3, une version avancée de son générateur d’images Imagen, rival, entre autres, du DALL-E d’OpenAI. La firme précise également mettre l’accent sur la lutte contre la désinformation, indiquant que ses générateurs d’images et de vidéos intègrent le système SynthID, qui ajoute un filigrane invisible au contenu généré afin de l’identifier comme étant créé à l’aide de l’IA.
Non officiellement accessibles depuis l’Europe, ces deux nouveaux services sont respectivement disponibles via les outils VideoFX et ImageFX sur la plateforme Google Labs.
Enfin, Google a également dévoilé Whisk, un nouvel outil d’IA qui permet aux utilisateurs de créer des images basées sur le sujet, le style et le contexte d’autres images, plutôt que de s’appuyer sur des descriptions textuelles.