Kling, le modèle chinois de Kuaishou, entre dans la mêlée

Kling, le modèle chinois de Kuaishou, entre dans la mêlée
Kling, le modèle chinois de Kuaishou, entre dans la mêlée

En février dernier, OpenAI a dévoilé Sora, un modèle Text-to-Video capable de générer des vidéos très réalistes allant jusqu’à une minute, surpassant ainsi les modèles existants produisant des vidéos de quelques secondes. Le mois dernier, lors de Google I/O 2024, Google a présenté VEO, étendant les capacités de génération vidéo de Sora à plus d’une minute. Aujourd’hui, ces deux modèles ont un sérieux concurrent : Kling, développé par la société chinoise Kuaishou Technology, qui génère des vidéos allant jusqu’à 2 minutes.

Kuaishou est surtout connu pour sa plateforme de partage de courtes vidéos, qui permet aux utilisateurs de créer, partager et visionner de courtes vidéos. Lancé en 2011, Kuaishou est devenu le deuxième réseau social le plus populaire en Chine derrière TikTok et a également gagné en popularité à l’échelle internationale, opérant sous le nom de Kwai sur certains marchés. L’application propose une grande variété de contenus, allant des vidéos de divertissement aux défis viraux en passant par les didacticiels et les vlogs personnels.

Parallèlement, l’entreprise a mis en œuvre l’année dernière une stratégie d’IA, notamment dans le domaine de l’IA générative : son équipe dédiée a présenté sa famille KwaiYii LLM en août 2023 et plus récemment son modèle textuel. image Couleurs.

Le dernier-né de Kuaishou, Kling, actuellement en phase d’essai, permet de convertir du texte en clips vidéo d’une durée maximale de 2 minutes avec une résolution de 1080p et une fréquence de 30 images par seconde grâce, selon l’entreprise, « à une infrastructure de formation efficace, une optimisation extrême des inférences et une infrastructure évolutive ».

Kling, comme Sora, est un modèle de livraison utilisant une architecture de transformation et avec une compréhension approfondie de la sémantique texte-vidéo. Une stratégie de lecteur à résolution variable lui permet de prendre en charge différents formats d’image. Selon Kuaishou, il peut simuler avec précision les propriétés du monde physique grâce à une architecture auto-développée en interne et de puissantes capacités de modélisation inspirées de la loi d’échelle physique du monde réel.

Le modèle adopte un mécanisme d’attention conjointe spatio-temporelle 3D, qui lui permet de mieux modéliser des mouvements spatio-temporels complexes. La technologie de reconstruction 3D du visage et du corps (3D VAE), développée en interne, améliore l’expression des visages et des corps à partir d’une seule image.

Kuaishou publie une série de vidéos de démonstration sur son site :

un petit garçon fait du vélo dans le jardin et vit les saisons

certains ont également été partagés sur X :

Des modèles comme Kling ont le potentiel de transformer l’industrie cinématographique, comme en témoigne la projection samedi prochain de « Sora Shorts », une série de courts métrages créés avec l’aide de Sora par cinq cinéastes à accès anticipé. au modèle OpenAI, dans le cadre du Tribeca Film Festival, festival de films indépendants américain.

 
For Latest Updates Follow us on Google News
 

PREV ChatGPT sur macOS présente une faille de sécurité majeure, faites attention à votre vie privée – .
NEXT Les processeurs Arrow Lake Core Ultra 200 seront 20 % plus rapides selon ce benchmark – .