Le monde de la 3D pourrait connaître un nouveau souffle avec la démocratisation de l’IA générative. Les équipes de Google DeepMind ont développé un modèle fondamental appelé Genie 2 capable de générer une variété infinie d’environnements 3D jouables et contrôlables par l’action pour la formation et l’évaluation des agents incarnés. Basé sur une seule image d’invite, il peut être joué par un humain ou un agent IA à l’aide des entrées du clavier et de la souris.
« Jusqu’à présent, les modèles mondiaux se limitaient largement à la modélisation de domaines restreints. Dans Genie 1, nous avons introduit une approche permettant de générer un large éventail de mondes 2D. Aujourd’hui, nous vous présentons Genie 2, qui représente un bond en avant significatif en termes de généralité », promet Google. Genie 2 peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple sauter, nager, etc.).
Genie 2 est basé sur un autre modèle développé par Google : Imagen 3
Il a été formé sur un ensemble de données vidéo à grande échelle et, comme d’autres modèles, démontre des capacités à grande échelle, telles que les interactions d’objets, l’animation de personnages complexes, la physique et la capacité à modéliser et donc prédire le comportement d’autres agents. Les exemples publiés dans l’article de recherche prennent comme base des images générées par un autre modèle de Google, Imagen 3, accessible à tous depuis le début de la semaine.
Après avoir traversé un auto-encodeur, les images latentes de la vidéo sont transmises à un grand modèle Transformer, formé dans un masque causal similaire à celui utilisé par les grands modèles de langage, expliquent les chercheurs. Au moment de l’inférence, Genie 2 peut être échantillonné de manière autorégressive, en tenant compte des actions individuelles et des images latentes passées image par image.
La possibilité de générer des mondes virtuels de 60 secondes
L’aspect le plus impressionnant est la possibilité pour quiconque de décrire le monde de son choix sous forme de texte, de sélectionner son rendu préféré de cette idée, puis d’entrer et d’interagir avec ce monde nouvellement créé. Genie 2 s’appuie sur les actions données par une personne ou un agent utilisant le clavier et la souris, puis simule l’observation suivante.
« Genie 2 réagit intelligemment aux actions effectuées en appuyant sur les touches d’un clavier, en identifiant le personnage et en le déplaçant correctement. Par exemple, notre modèle doit comprendre que les touches fléchées doivent déplacer le robot et non les arbres ou les nuages », prenons les chercheurs comme exemple. À ce jour, Genie 2 peut générer des mondes cohérents pendant une minute maximum, la majorité des exemples présentés durant 10 à 20 secondes.
Développer une IA sécurisée et évoluer vers le fameux « AGI »
Avec le modèle Genie 2, Google espère faire progresser le développement d’une IA sûre : la nature engageante des jeux, leur mélange de défis et leurs progrès mesurables en font des environnements idéaux pour tester et faire progresser les capacités de l’IA, affirme le géant. Depuis ses débuts, DeepMind s’appuie régulièrement sur le monde du jeu vidéo pour faire avancer ses travaux. Cela inclut ses premiers travaux sur les jeux Atari, grâce à des avancées telles qu’AlphaGo et AlphaStar, jusqu’à ses recherches sur les agents généraux les développeurs de jeux.
Si nous n’en sommes qu’aux débuts de Genie 2, Google espère qu’à l’avenir les artistes et designers pourront prendre le contrôle de son modèle pour “créer rapidement des prototypes, qui peuvent accélérer le processus créatif de conception d’environnements”, et en même -, aider les chercheurs à pousser le développement de leur modèle, bien sûr.
Entre les lignes, Google indique également clairement qu’il veut s’attaquer à l’obsession d’un autre gros bonnet de l’IA – OpenAI – à savoir l’intelligence artificielle générale ou AGI. « Bien que cette recherche en soit encore à ses débuts et qu’il existe une marge d’amélioration substantielle en ce qui concerne les capacités de génération d’agents et d’environnements, nous pensons que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d’agents incarnés en toute sécurité tout en atteignant l’échelle. et généralité requise pour progresser vers l’AGI.