C’était le dernier des trois hyperscalers à entrer dans la danse de l’IA générative. Lors de la conférence re:Invent 2024 qui se déroule en ce moment à Las Vegas, le patron d’Amazon Andy Jassy a levé le voile sur une famille de modèles fondamentaux baptisée Nova Designed « pour une large gamme de tâches, ainsi qu’un rapport qualité/prix inégalé dans l’industrie ». Disponible dans le service Bedrock du géant, cette famille comprend six modèles.
Il s’agit notamment de Nova Micro (un modèle texte-texte très rapide), Nova Lite, Nova Pro et Nova Premier (modèles multimodaux capables de traiter du texte, des images et des vidéos pour générer du texte). La société a lancé deux autres modèles multimodaux : Nova Canvas qui génère des images de qualité studio et Amazon Nova Reel qui génère des vidéos de qualité studio.
Selon l’entreprise, le modèle Nova Micro est considéré comme offrant le meilleur rapport qualité-prix. De son côté, Nova Premier est particulièrement adapté aux tâches de raisonnement complexes et comme base pour affiner des modèles personnalisés.
Des performances qui correspondent à celles de Llama 3.1, Gemini 1.5 ou encore GPT-4o mini
Amazon n’a peur de rien. Dans sa série de benchmarks, le géant fait état de performances comparables entre ses différents modèles et ceux des plus gros. Nova Micro, par exemple, a obtenu des performances aussi bonnes ou meilleures que le Llama 3.1 8B sur les 11 benchmarks applicables, ainsi que le Gemini 1.5 Flash-8B sur les 12 benchmarks applicables. La société de Seattle attribue ce taux de réussite à sa vitesse de sortie maximale de 210 jetons par seconde, ce qui la rend idéale pour les applications nécessitant des réponses rapides.
De son côté, le modèle Nova Lite est également très compétitif par rapport aux autres modèles du même type, égalant – voire dépassant – sur 17 des 19 benchmarks par rapport au GPT-4o mini d’OpenAI et sur 17 des 21 benchmarks par rapport à Google. Gémeaux 1.5Flash-8B. Autre surprise, ce modèle multimode peut rivaliser avec le Claude Haiku 3.5 d’Anthropic dans une dizaine de tests. L’autre modèle multimode Nova Pro concurrence les GPT-4o, Gemini 1.5 Pro et Claude Sonnet 3.5v2. Ces deux itérations de la famille de modèles Nova sont connues pour exceller dans le suivi des instructions et les flux de travail multimodaux, assure Amazon.
Les résultats peuvent être attribués à la fenêtre contextuelle plutôt longue de chacun de ces modèles : Nova Micro prend en charge une longueur de contexte de 128 000 jetons d’entrée, tandis que Nova Lite et Nova Pro prennent en charge une longueur de contexte de 300 000 jetons ou 30 minutes de traitement vidéo. “Au début de 2025, Amazon prendra en charge une longueur de contexte de plus de 2 millions de jetons d’entrée”, indique la société. Veuillez noter que les trois versions Micro, Lite et Pro prennent en charge plus de 200 langues.
La concurrence devient rude
Amazon Nova Micro, Nova Lite et Nova Pro sont disponibles en général dès aujourd’hui tandis que Nova Premier le sera au premier trimestre 2025. Le message est clair : Amazon peut, comme Google, Microsoft ou encore OpenAI, faire du multimodal, low-cost, très latence faible. De plus, les modèles Nova ont été optimisés pour les rendre faciles à utiliser dans les applications d’agent qui nécessitent une interaction avec les systèmes et les données propriétaires d’une entreprise via plusieurs API, ajoute la société.
Une manière de s’attaquer de front à Microsoft, qui propose déjà une collection d’agents basés sur l’IA et personnalisables à volonté en fonction du secteur et du domaine dans lesquels ces agents doivent intervenir. Et pour démontrer sa volonté de s’implanter dans ce domaine, Amazon prépare déjà la suite.
Des modèles Canvas et Reel prêts à rivaliser avec le DALL-E 3, Stable Diffusion ou encore Gen-3 Alpha
Quant à ses deux modèles de génération d’images et de vidéos, Canvas et Reel, Amazon affirme être capables de rivaliser avec les autres solutions du marché. À commencer par DALL-E 3 par OpenAI et Stable Diffusion pour Canvas et Gen-3 Alpha par Runway pour Reel. Les deux modèles sont dotés de fonctionnalités telles que le filigrane pour suivre la Source d’une image et la modération créative, ce qui limite la génération de contenu potentiellement dangereux.
Actuellement, Nova Reel génère des vidéos de six secondes et prendra en charge la génération de vidéos d’une durée maximale de deux minutes dans les mois à venir. À titre de comparaison, Meta a lancé en octobre dernier un modèle texte-vidéo permettant de générer des vidéos d’une durée maximale de 16 secondes, tandis que Google vient de dévoiler Veo, un modèle similaire capable de générer des scènes d’une minute. OpenAI, le premier du genre à proposer une telle solution, a dévoilé Sora en février, capable de générer des scènes d’une minute. Jusqu’à présent, la solution n’a pas été rendue accessible au grand public.
Plus de modèles multimodes à venir en 2025
Le géant souhaite ajouter un modèle de synthèse vocale à sa famille Nova au premier trimestre 2025. «Le modèle est conçu pour transformer les applications d’IA conversationnelle en comprenant le streaming des entrées vocales en langage naturel, en interprétant les signaux verbaux et non verbaux (tels que la hauteur et la cadence) et en fournissant des interactions naturelles de va-et-vient, de type humain, avec une faible latence », indique l’entreprise.
Un autre modèle devrait apparaître courant 2025. Ce dernier sera capable de prendre du texte, des images, de l’audio et de la vidéo en entrée et de générer une sortie dans l’un de ces modes, tous deux dotés de capacités multimodales natives pour un résultat « multimodal ». Objectif : Simplifier le développement d’applications où le même modèle peut être utilisé pour effectuer une grande variété de tâches, telles que traduire n’importe quel fichier d’une modalité à une autre, les modifier et les transmettre à des agents d’IA capables de comprendre et de générer toutes les modalités.
Utilisateurs bêta sur le pont
Il s’agit de 123RF, Deloitte, Musixmatch, Palantir, SAP et Shutterstock. Et ils ont tous décidé d’intégrer les différents modèles de la famille Nova dans leurs processus pour faire décoller leurs produits et services. Par exemple, 123RF et Shutterstock utilisent Nova Canvas et Nova Reel pour rationaliser le processus de conception avec des outils plus rapides et plus faciles à utiliser pour les créateurs visuels. Un nouveau marché s’ouvre : celui de la génération d’images IA dont la qualité est garantie par ces banques d’images.
Dans un autre registre, celui de la musique, Musixmatch entend faire sensiblement la même chose. Avec 80 millions d’utilisateurs et une base de données de plus de 11 millions de paroles uniques, la plateforme souhaite intégrer Nova Reel dans Musixmatch Pro pour aider les artistes à produire des clips qui correspondent à leurs paroles.
SAP, de son côté, prévoit d’intégrer les modèles Amazon Nova dans sa famille de LLM soutenus par son hub d’intelligence artificielle générative AI Core. Grâce à lui, les développeurs pourront créer des fonctionnalités supplémentaires pour Joule, le co-pilote IA de SAP, et surtout pousser des solutions pilotées par l’IA pouvant s’appuyer sur les données de l’éditeur allemand.