L’IA de Microsoft qui fait parler les portraits de manière ultra-réaliste

Microsoft dévoile VASA-1, une intelligence artificielle qui permet d’animer des photos et de les faire parler de manière ultra réaliste. Le résultat est tout simplement bluffant ! Reste à éviter les excès…

Microsoft mise gros sur l’intelligence artificielle, au point d’y investir des dizaines de milliards de dollars. C’est bien simple, l’entreprise l’intègre à tous ses services, qu’il s’agisse de sa suite bureautique Microsoft 365, de son navigateur Edge, de son moteur de recherche Bing, de ses outils Windows… Grâce à son partenariat avec OpenAI, elle développe des technologies incroyables, comme son Assistant Copilot, son générateur d’images ou VALL-E, l’IA qui imite les voix humaines. Cette fois, la firme de Redmond dévoile sur son blog VASA-1, une intelligence artificielle capable d’animer des photos de visages et de les faire parler de manière ultra réaliste. Il suffit d’une photo prise en mode portrait et d’un son pour produire une vidéo présentant une synchronisation labiale précise, des animations faciales époustouflantes et des mouvements naturels de la tête. Un résultat aussi incroyable qu’inquiétant…

VASA-1 : des résultats d’un réalisme impressionnant

Les chercheurs de Microsoft ont réussi cet exploit en combinant plusieurs technologies complexes associées au deep learning. VASA-1 est capable de générer des vidéos haute définition (512 × 512) et une fréquence d’images de 40 images par seconde. On le répète, mais le résultat est tout simplement époustouflant. On a l’impression de voir de vraies personnes parler, avec toutes les nuances et subtilités des expressions faciales. Les lèvres bougent au rythme des mots, les yeux clignent et regardent naturellement – même si le regard est parfois un peu vide –, les sourcils se lèvent et froncent… De plus, l’IA peut animer des illustrations, s’occuper de l’audio dans différentes langues, et même chanter. On y voit aussi la Joconde s’essayer au rap, et autant dire que ça vaut le détour. Quelques détails trahissent clairement la tromperie. Les expressions peuvent paraître un peu exagérées, tandis que les nombreux mouvements de tête peuvent avoir un côté quelque peu artificiel. De plus, l’IA ne gère que le haut du corps et ne prend pas en compte les éléments non rigides, comme les cheveux ou les vêtements. Mais à part ça, le résultat est impressionnant !

A Dans le futur, VASA-1 pourrait être très utile pour tout ce qui nécessite des avatars parlants réalistes, par exemple dans les jeux vidéo, pour des outils pédagogiques, en thérapie, etc. Mais le résultat est tellement réaliste qu’on peut légitimement s’inquiéter du phénomène de deepfakes qu’une telle technologie peut générer. Les équipes Microsoft en sont parfaitement conscientes et admettent que VASA-1 “pourrait être utilisé à mauvais escient pour usurper l’identité d’êtres humains”. De plus, les chercheurs n’ont pas « n’ai pas l’intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe, car [qu’ils] né [sont] « il n’est pas certain que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées ». Heureusement, car on se souvient encore du faux audio d’Emma Watson récitant Mon Kampf…

For Latest Updates Follow us on Google News

VASA-1 : des résultats d’un réalisme impressionnant

Related posts