je J’ai récemment eu l’occasion de voir une démo de Sora, l’outil de génération vidéo d’OpenAI, sortie lundi aux États-Unis, et c’était tellement impressionnant que cela m’a inquiété pour l’avenir. La nouvelle technologie fonctionne comme un générateur de texte ou d’image IA : écrivez une invite et elle produit un court clip vidéo. Dans la démo de pré-lancement qui m’a été montrée, un représentant d’OpenAI a demandé à l’outil de créer des images d’une rainette en Amazonie, à la manière d’un documentaire sur la nature. Le résultat était étrangement réaliste, avec des prises de vue aériennes plongeant sur la forêt tropicale, avant de se poser sur un gros plan de la grenouille. L’animal semblait aussi vivant et réel que n’importe quel sujet de documentaire sur la nature.
Pourtant, malgré la prouesse technologique, en observant la rainette, je me suis senti moins étonné que triste. Cela avait certainement l’air réaliste, mais nous savions tous que ce que nous voyions n’était pas réel. La rainette, la branche à laquelle elle s’accrochait, la forêt tropicale dans laquelle elle vivait : rien de tout cela n’a existé, et cela n’a jamais existé. La scène, bien que visuellement impressionnante, était creuse.
La vidéo est la nouvelle frontière de l’IA, avec OpenAI qui a finalement déployé Sora aux États-Unis après l’avoir présenté pour la première fois en février, et Meta a annoncé son propre outil de conversion texte-vidéo, Movie Gen, en octobre. Google a mis son générateur vidéo Veo à la disposition de certains clients ce mois-ci. Sommes-nous prêts pour un monde dans lequel il est impossible de discerner lesquelles des images en mouvement que nous voyons sont réelles ?
Au cours des dernières années, nous avons assisté à la prolifération de générateurs génératifs de texte et d’images basés sur l’IA, mais la vidéo semble avoir des enjeux encore plus élevés. Historiquement, les images animées ont été plus difficiles à falsifier que les images fixes, mais l’IA générative est sur le point de changer tout cela. Il existe de nombreux abus potentiels liés à cette technologie. Les escrocs utilisent déjà l’IA pour usurper l’identité des amis ou des membres de la famille des gens, afin de leur soutirer de l’argent. Les colporteurs de désinformation utilisent des deepfakes pour soutenir leurs programmes politiques. Les extorsionnistes et les agresseurs créent de fausses images ou vidéos sexuelles de leurs victimes. Nous vivons dans un monde où certains chercheurs en sécurité suggèrent désormais aux familles d’adopter un mot de passe secret, afin de pouvoir prouver qu’elles sont réellement celles qu’elles prétendent être si elles doivent appeler à l’aide.
Les créateurs de ces outils semblent conscients des risques. Avant sa sortie publique, OpenAI ouvrait l’accès uniquement à certains partenaires créatifs et testeurs. Meta fait de même. Les outils intègrent diverses garanties, telles que des restrictions sur les invites que les gens peuvent utiliser : empêcher les vidéos de présenter des personnalités publiques, de la violence ou du contenu sexuel, par exemple. Ils contiennent également des filigranes par défaut, pour signaler qu’une vidéo a été créée à l’aide de l’IA.
Même si les possibilités d’abus les plus extrêmes sont alarmantes, je trouve la perspective d’une falsification vidéo à faibles enjeux presque aussi déconcertante. Si vous voyez une vidéo d’un homme politique faisant quelque chose de si scandaleux qu’il est difficile de le croire, vous pourriez de toute façon réagir avec scepticisme. Mais un sketch d’un créateur Instagram ? Une jolie vidéo d’animaux sur Facebook ? Une publicité télévisée pour Coca-Cola ? Il y a quelque chose d’ennuyeux et de dystopique à l’idée de devoir remettre en question même le contenu le plus banal, alors que les images qui nous entourent se détachent de plus en plus de la réalité.
En regardant la rainette générée par l’IA, je me demandais surtout à quoi cela servait. Je peux certainement voir l’utilité de l’IA dans la CGI pour la réalisation de films créatifs, mais un faux documentaire sur la nature semblait un choix étrange. Nous avons tous été émerveillés par les visuels époustouflants de ces programmes, mais notre admiration ne vient pas seulement du fait que les images sont jolies : c’est aussi parce qu’elles sont réelles. Ils nous permettent de voir une partie de notre monde que nous ne pourrions pas voir autrement, et la difficulté d’obtenir les images fait partie de leur attrait. Certains de mes moments préférés de documentaires sur la nature ont été des clips en coulisses dans des programmes tels que Our Planet, qui révèlent combien de - un caméraman a attendu silencieusement dans une cache spécialement conçue pour capturer une espèce rare, ou comment il a bricolé son équipement. pour obtenir le cliché parfait. Bien entendu, la vidéo IA ne pourra jamais atteindre cette barre de véritable nouveauté. Formé sur du contenu existant, il ne peut produire que des images de quelque chose qui a déjà été vu.
Peut-être que la façon dont une vidéo a été produite ne devrait pas avoir autant d’importance. Une rainette est une rainette, et une enquête suggère que tant que nous ne le faisons pas savoir une image est faite par l’IA, on l’aime quand même. C’est la tromperie inhérente à tant de médias IA que je trouve bouleversante. Même la photographie réelle la plus floue du héros du mème de 2024, Moo Deng, contient plus de vie qu’une vidéo Movie Gen d’un bébé hippopotame nageant, qui, aussi élégant soit-il, est mort derrière les yeux.
À mesure que le contenu de l’IA devient plus convaincant, il risque de gâcher de vraies photos et vidéos. Nous ne pouvons plus faire confiance à nos yeux et sommes obligés de devenir des détectives amateurs juste pour nous assurer que le modèle de crochet que nous achetons est réellement constructible, ou que les meubles douteux que nous envisageons vraiment. existe sous forme physique. Je parcourais récemment Instagram et j’ai partagé une jolie vidéo d’un lapin mangeant de la laitue avec mon mari. C’était un clip tout à fait inoffensif – mais peut-être un peu aussi adorable. Était-ce l’IA, a-t-il demandé ? Je ne pouvais pas le dire. Le simple fait de devoir poser la question a diminué le moment et la gentillesse de la vidéo. Dans un monde où tout peut être faux, tout peut l’être.