Une vidéo générée par le modèle d’IA VASA-1 de Microsoft montrant le rap de Mona Lisa suscite de vives réactions de la part des téléspectateurs, qui craignent une utilisation abusive

Microsoft a récemment publié une démo de son modèle d’IA VASA-1 montrant Mona Lisa du célèbre peintre Léonard de Vinci en train de rapper. Le clip a suscité de vives réactions en ligne allant de l’humour à l’horreur. Microsoft a déclaré que la technologie pourrait être utilisée à des fins éducatives ou pour « améliorer l’accessibilité pour les personnes ayant des difficultés de communication », ou pour créer des compagnons virtuels pour les humains. Mais il est également facile de voir comment l’outil pourrait être détourné et utilisé pour usurper l’identité de vraies personnes. Pour l’instant, l’entreprise conserve l’outil en interne en raison des risques qu’il présente.

Les chercheurs de Microsoft ont présenté la semaine dernière un nouveau modèle d’IA capable de créer automatiquement une vidéo réaliste d’une personne parlant à partir d’une image fixe d’un visage et d’un clip audio avec la voix de la personne. la personne. Les vidéos, qui peuvent être réalisées à partir de visages photoréalistes, de dessins animés ou d’œuvres d’art, présentent une synchronisation labiale convaincante et des mouvements naturels du visage et de la tête. Dans une vidéo de démonstration, l’équipe a montré comment elle avait animé Mona Lisa pour chanter un rap comique de l’actrice Anne Hathaway.

Dans un autre clip Microsoft, un avatar chante, et dans d’autres, générés à partir de vraies photos, les gens parlent de sujets communs. Les vidéos ont rapidement gagné en popularité en ligne, suscitant des réactions mitigées. Certains internautes ont apprécié les clips. D’autres étaient plus méfiants, voire perturbés. C’est sauvage, bizarre et effrayant, a écrit l’un d’eux. Un autre jour, une autre vidéo terrifiante de l’IA, déplore une autre. Pourquoi cela doit-il exister ? Je ne vois pas ce qu’il y a de positif là-dedans, a écrit un critique. Selon les critiques, l’outil comporte de nombreux risques.

C’est vraiment effrayant. Je ne voulais même pas finir de le regarder. C’est la partie la plus profonde de la vallée de l’étrangeté dont j’ai été témoin jusqu’à présent dans ma vie », peuvent-ils lire dans les commentaires. Les chercheurs de Microsoft sont conscients des nombreux risques associés à leur nouveau modèle d’IA. Lors de l’annonce de VASA-1 la semaine dernière, les chercheurs ont abordé les risques et déclaré qu’ils n’avaient pas l’intention de commercialiser le produit en ligne tant que « l’équipe n’est pas certaine que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur ».

L’objectif n’est pas de créer du contenu destiné à induire en erreur ou à tromper. Cependant, comme d’autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l’identité d’un être humain. Nous nous opposons à tout comportement visant à créer du contenu trompeur ou préjudiciable à partir de personnes réelles, et nous souhaitons appliquer notre technique pour faire progresser la détection des falsifications. Tout en reconnaissant la possibilité d’une mauvaise utilisation, il est impératif de reconnaître le potentiel positif substantiel de notre technique, explique l’équipe.

Les avantages (tels que l’amélioration de l’équité éducative, l’amélioration de l’accessibilité pour les personnes ayant des difficultés de communication, la fourniture d’un accompagnement ou d’un soutien thérapeutique aux personnes dans le besoin, entre autres) soulignent l’importance de nos recherches et d’autres explorations connexes. « Nous nous engageons à développer l’IA de manière responsable, dans le but de faire progresser le bien-être humain », écrivent les chercheurs. Les préoccupations des scientifiques de Microsoft sont également partagées par d’autres chercheurs de la communauté de l’IA.

Alors que les outils permettant de créer des images, des vidéos et des sons captivants générés par l’IA se multiplient, les experts craignent que leur mauvaise utilisation ne conduise à de nouvelles formes de désinformation. Certains craignent également que la technologie perturbe davantage les industries créatives, du cinéma à la publicité. Le refus de Microsoft de publier le modèle d’IA VASA-1 n’est pas sans rappeler la manière dont OpenAI a traité les préoccupations concernant son modèle d’IA de génération vidéo Sora. Jusqu’à présent, la société n’a pas mis Sora à la disposition du grand public, invoquant des raisons de sécurité.

Le nouveau modèle d’IA de Microsoft a été formé sur de nombreuses vidéos de visages de personnes parlant, et il est conçu pour reconnaître les mouvements naturels du visage et de la tête, y compris « le mouvement des lèvres, l’expression (non labiale), le regard et les clignements, entre autres. Le résultat est une vidéo plus réaliste lorsque VASA-1 anime une photo fixe. D’autres cas d’utilisation sont également possibles. Ainsi, il est également possible de demander à l’outil IA de produire une vidéo dans laquelle le sujet regarde dans une certaine direction ou exprime une émotion précise.

En y regardant de plus près, il existe encore des signes indiquant que les vidéos ont été générées par une machine, comme des clignements peu fréquents et des mouvements exagérés des sourcils. Cependant, Microsoft estime que son modèle surpasse considérablement d’autres outils similaires et ouvre la voie à des engagements en temps réel avec des avatars réalistes qui imitent les comportements conversationnels humains. (L’outil s’est avéré suffisamment convaincant pour déclencher un tollé sur la toile.)

Ce dernier développement en matière d’IA intervient alors que les gouvernements du monde entier s’efforcent de réglementer la technologie et de légiférer contre son utilisation abusive à des fins criminelles. Un exemple est la pornographie deepfake, qui consiste à superposer le visage d’une personne sur une photo ou une vidéo explicite sans son consentement, un problème qui a même touché Taylor Swift plus tôt cette année. Les auteurs des deepfakes de Taylor Swift ont utilisé le générateur d’images de Microsoft.

Et toi ?

Quelle est votre opinion sur le sujet ?

Que pensez-vous du nouvel outil d’IA VASA-1 de Microsoft ? Est-ce que ça a une utilité ?

Quelles inquiétudes cela soulève-t-il ? Faut-il le publier ?

Voir aussi

VASA-1, la nouvelle IA de Microsoft, peut créer un deepfake simplement à partir d’une photo et d’une piste audio, et peut faire dire n’importe quoi à n’importe qui, mais n’est pas disponible car trop dangereux

Sora : OpenAI lance un modèle d’IA capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d’instructions textuelles, mais la durée est limitée à 60 secondes

Stability.ai présente Stable Video 3D, un outil d’IA générative pour le rendu vidéo 3D qui permet aux utilisateurs de générer une courte vidéo à partir d’une image ou d’un texte

For Latest Updates Follow us on Google News

Related posts