“D’ici un an ou deux, il sera possible de créer un long métrage complet avec Runway”

Runway continue d’enrichir sa plateforme avec des outils visant à donner plus de contrôle aux créateurs pour mieux orienter ses modèles d’IA. Son co-fondateur dévoile les dernières avancées et explique comment ces outils transforment les pratiques créatives.

JDN. Runway enrichit régulièrement sa plateforme avec de nouveaux outils. Quelles sont les dernières nouveautés et quels progrès significatifs avez-vous réalisés ces derniers mois ?

Anastasis Germanidis est le co-fondateur et CTO de Runway. © AG

Anastasis Germanidis. Bien que les résultats obtenus avec nos modèles texte-vidéo aient été impressionnants et convaincants, nos utilisateurs, qui sont des créatifs, ont rapidement réalisé qu’ils ne pouvaient pas obtenir des résultats précis avec les seules invites textuelles. Par exemple, un réalisateur peut avoir besoin de créer certaines interactions entre des objets ou d’effectuer des mouvements de caméra très spécifiques. Notre objectif est donc de leur fournir un maximum d’outils avancés pour leur permettre de faire fonctionner nos modèles, dont Gen-3 Alpha notamment, avec plus de contrôle.

Nous disposons actuellement d’une quarantaine d’outils dont certains permettent de générer des vidéos à partir d’images, de contrôler les mouvements de caméra, etc. Je peux également citer les ajouts récents de Expand Video, qui permet d’agrandir une vidéo dans un format vertical ou horizontal, ou Act One, qui vous permet de capturer et de transférer des expressions faciales sur un autre visage.

Runway a présenté ses modèles Gen-1 et Gen-2 en février 2023 puis Gen-3 Alpha, en juin 2024, avec des avancées considérables. Quand comptez-vous introduire la Gen-4 et comment formez-vous ces modèles ? ?

Chaque génération de nos modèles de base est entièrement formée à partir de zéro. L’une des clés, outre les améliorations de l’architecture et des algorithmes, est l’augmentation des ressources de calcul utilisées pour chaque modèle. Concernant le Gen-4, il y a des discussions en interne sur les prochaines étapes à venir, mais nous n’avons rien de concret à annoncer pour le moment. Lorsqu’on fait de la recherche, il est difficile d’avoir des délais très précis. C’est un processus qui prend du -, et seule une fraction des idées et des projets en cours se concrétiseront. Je pense que nous avons encore beaucoup à faire avec Gen-3, d’autant plus que nous n’avons pas encore tout publié.

Act One est utile pour animer un personnage en vous permettant de conserver les expressions faciales d’un visage provenant d’une autre vidéo Source. Quelles utilisations envisagez-vous pour ce nouvel outil ?

L’idée fausse la plus répandue autour des modèles d’IA générative était de penser au départ que les résultats allaient être identiques et que tout le monde créerait les mêmes choses. En réalité, les outils de contrôle n’étaient pas encore là pour permettre un véritable contrôle des modèles d’IA. Act One est sans doute l’une des meilleures représentations de nos efforts pour donner plus de contrôle et de précision à nos utilisateurs.

«Nous lançons un nouvel outil toutes les deux semaines environ.»

Le contrôle des expressions faciales humaines est un élément important de la narration vidéo car il permet de mieux se connecter avec les personnages et de maîtriser certaines subtilités. Bien sûr, ce n’est qu’une étape et nous avons encore d’autres points à améliorer, notamment lorsqu’il s’agit de maîtriser les mouvements du corps. Mais le premier acte représente déjà un grand pas en avant.

Quels sont vos projets dans le domaine de l’audio, qui reste une composante essentielle pour pouvoir réaliser des films, par exemple pour ajouter des bruitages ou des dialogues ?

Nous réfléchissons à différentes choses, mais nous cherchons le bon moment pour réellement intégrer des outils entièrement intégrés. Il nous a semblé important, dans un premier -, de perfectionner le rendu visuel de nos modèles d’IA et d’ajouter progressivement des options de contrôle dédiées à la vidéo avant d’ajouter ce composant audio. Cela viendra et ce n’est qu’une question de -. À terme, nous présenterons des flux de travail audio complets. Mais il est aujourd’hui essentiel pour notre équipe de recherche de rester concentrée, d’autant que la vidéo est déjà un domaine suffisamment complexe. Cela dit, nous proposons déjà plusieurs outils audio sur notre plateforme, permettant par exemple de faire lire du texte par l’IA, de créer des voix personnalisées, de synchroniser l’audio avec les lèvres d’un personnage ou encore de nettoyer un fichier pour supprimer les sons indésirables.

La possibilité de créer un long métrage entièrement avec l’IA semble plus accessible que jamais. Quel délai prévoyez-vous pour y parvenir ? ?

Nous n’en sommes d’ailleurs plus très loin. Si je devais donner une estimation, je dirais qu’elle devrait être réalisable d’ici un à deux ans. Cela ne veut pas dire qu’il suffit d’écrire quelques phrases pour produire instantanément un film de deux heures. Il faudra toujours travailler chaque plan, utiliser différents outils de contrôle pour affiner chaque plan et chaque scène afin d’obtenir le résultat souhaité, etc. Mais oui, il sera potentiellement possible de créer un film complet avec Runway, sans avoir à le faire. filmer n’importe quoi.

Combien de personnes travaillent chez Runway et comment sont répartis vos effectifs entre vos différents départements ?

Nous sommes environ 90 personnes dont la majorité travaille dans notre centre de recherche. Nous essayons de rester le plus petit possible car nous souhaitons conserver une certaine agilité. Certains membres de notre équipe créative sont initialement des réalisateurs ou des monteurs vidéo. Leur rôle consiste entre autres à tester nos modèles et outils afin de fournir des retours à nos chercheurs, tout en produisant des vidéos pour promouvoir notre plateforme.

“J’espère que les œuvres entièrement générées par l’IA remporteront des prix lors de grandes cérémonies sans que personne ne sache ou ne se demande s’il s’agit bien d’une IA.”

Nos chercheurs sont tous animés par l’idée de faire progresser l’innovation en publiant des articles. Mais ils sont aussi très motivés à l’idée de voir leurs modèles concrètement utilisés par la communauté. Nous avons annoncé en novembre dernier l’ouverture de notre bureau à Londres, qui compte une dizaine de personnes, principalement dédiées à la recherche.

En septembre dernier, vous annonciez un partenariat avec le studio de production Lionsgate. Quels sont vos objectifs et envisagez-vous d’autres collaborations similaires avec des studios hollywoodiens ?

Ce partenariat, premier en son genre, poursuit deux objectifs dont le premier concerne l’aspect créatif. Nous travaillons en étroite collaboration avec les différentes équipes de Lionsgate, notamment les monteurs vidéo, les superviseurs VFX ou leurs équipes de production, pour intégrer nos outils dans leurs flux de travail pour leurs futurs projets de films. L’autre aspect concerne les données : nous créons des modèles personnalisés, basés sur Gen-3 Alpha, à partir du catalogue de films et de séries de Lionsgate.

Ces deux parties sont interconnectées, car les modèles personnalisés formés sur ces contenus offriront de meilleures performances pour certains cas d’usage spécifiques à Lionsgate. Les studios de cinéma adoptent de plus en plus les technologies basées sur l’IA. Des outils comme Runway leur permettent d’aller plus vite tout en créant des œuvres toujours plus spectaculaires et qualitatives. Nous restons bien entendu ouverts à l’idée de travailler avec d’autres studios.

Comment pensez-vous que l’industrie du cinéma perçoit l’IA et comment votre solution est perçue par les professionnels du secteur ?

« Runway est avant tout une plateforme conçue pour les créatifs professionnels. »

Il y a beaucoup de discussions au sein des secteurs créatifs en général sur l’impact de l’IA sur les emplois de demain. J’observe souvent que les avis évoluent dès que quelqu’un consulte un contenu produit avec cette technologie. C’est aussi pourquoi nous avons organisé notre AI Film Festival en mai dernier à Los Angeles et à New York. Certains films présentés lors de cet événement ont également été projetés au Tribeca Film Festival, ce qui a permis aux artistes de toucher un nouveau public, issu du secteur du cinéma traditionnel, et d’obtenir d’excellents retours. Quand on regarde un film, on ne passe pas de - à se demander quelles techniques ou quelles caméras ont été utilisées. Je pense que ce sera la même chose avec l’IA. J’espère que les œuvres entièrement générées par l’IA remporteront des prix lors de grandes cérémonies sans que personne ne sache ou ne se demande s’il s’agit d’une IA.

Vous êtes d’origine grecque, donc citoyen européen. Quel regard portez-vous sur la place de l’Europe dans cette course à l’IA et sur l’impact de l’AI Act, le règlement européen visant à encadrer cette technologie ?

Il y a actuellement beaucoup de discussions autour de l’IA mais il faut comprendre que nous n’en sommes encore qu’au début. Les usages des modèles, outils et produits intégrant l’IA seront très différents dans cinq ans de ceux d’aujourd’hui. Il existe actuellement de nombreuses projections sur les risques potentiels de l’IA, mais je pense qu’il est un peu risqué d’extrapoler aussi loin. Bien entendu, il est essentiel de mettre en place des garde-fous et des réglementations adaptées, par exemple pour assurer la sécurité dans le déploiement des modèles. Mais tenter d’anticiper des risques potentiels aussi lointains, qui pourraient ne jamais se matérialiser, me semble être une erreur. Il me semble important de rester pragmatique et de ne pas trop anticiper les faits.

For Latest Updates Follow us on Google News