Avec ses modèles Nova, Amazon veut baisser les prix de l’IA multimodale

Thursday 05th December 2024 12:05 PM

Si Amazon aura bientôt investi 8 milliards de dollars dans Anthropic, cela ne l’empêche pas de proposer ses propres modèles de langage. La société a déjà fourni la collection de modèles multimodaux Amazon Titan via Amazon Bedrock. Pour rappel, Bedrock est le service managé de sa filiale cloud AWS, concurrente d’Azure AI de Microsoft et de Vertex AI de Google.

Lors d’AWS Re:Invent 2024, la société a présenté une deuxième collection de six modèles d’IA génératifs, appelée Amazon Nova.

Celui-ci regroupe des LLM capables de comprendre et de générer du texte, des Vision Language Models (VLM) qui traitent du texte, des images et des vidéos pour répondre de manière textuelle et des modèles de diffusion latente, dédiés à la génération d’images et de vidéos.

Actuellement, cinq modèles sont disponibles dans la région nuageuse us-east-1 en Virginie du Nord. Amazon lancera Nova Premier, le plus performant de ses VLM, au premier trimestre 2025.

Il y a d’abord Amazon Nova Micro, le seul modèle purement textuel du groupe. Celui-ci a une fenêtre contextuelle de 128 000 jetons et est capable d’en générer 5 000. Selon la documentation AWS, Nova Micro offre « une faible latence à des coûts très faibles ». Il tourne à une vitesse de 210 jetons par seconde.

Nova Lite et Nova Pro sont les VLM de la collection. Ceux-ci ont une fenêtre contextuelle de 300 000 jetons (jusqu’à 30 minutes de vidéo d’entrée en une seule requête) et peuvent générer du texte jusqu’à 5 000 jetons. Nova Lite serait également très rapide (157 jetons/s) et peu coûteux, tandis que Nova Pro doit équilibrer vitesse (100 jetons/s), coût et précision.

Nova Micro, Lite et Pro peuvent traiter des fichiers contenant des données non structurées (pdf, csv, doc, docx, xls, xlsx, html, txt, md), vidéo (MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3 GP) et comprendre et générer des textes dans plus de 200 langues. Sauf qu’ils ont été optimisés pour gérer 15 langues, dont l’anglais, l’allemand, le français, le portugais, le chinois et l’arabe.

Amazon tente d’égaler Google, Anthropic, OpenAI et Meta

Selon les benchmarks partagés par les chercheurs d’Amazon, les performances de Nova Pro, Lite et Micro sont proches des LLM concurrents, dont ceux des collections Claude 3.5 et GPT4-o, sans les battre. Ils semblent équivalents ou légèrement supérieurs aux LLM Gemini 1.5 de Google et Llama 3.1 et 3.2 de Meta. Nova Pro et Lite se démarquent sur les tâches multimodales et agentiques et jouent presque à égalité avec leurs concurrents.

Nova Canvas et Reel sont des modèles de diffusion latente. Canvas génère des images de 512 x 512 pixels à 2048 × 2048 pixels.

À partir d’une invite, Nova Reell génère une vidéo d’une durée de 6 secondes en résolution 720p (1280 × 720 pixels) à 24 images par seconde. C’est un concurrent de Sora, le modèle OpenAI qui a fait beaucoup de bruit.

Nova Canvas et Reel sont des « transformateurs de diffusion » intégrant un encodeur VAE – comme Stability AI l’a fait pour son modèle Stable Diffusion 2.1 avant de revenir à l’option VAE modulaire – un encodeur de texte et une architecture de transformateur chargée pour « débruiter » les images/vidéos générées de manière itérative.

« Ces deux modèles ont été entraînés pour générer des images de qualité studio », explique Stephan Hadinger, directeur de la technologie chez AWS France.

Les équipes de recherche d’Amazon ne présentent que des taux de réussite, indiquant que Nova Canvas et Réel aligneraient plus étroitement leurs résultats sur les préférences des utilisateurs sur les benchmarks TIFA et ImageReward que leurs concurrents, y compris Stable Diffusion 3.5.

Sur le site Web d’Amazon Science, les chercheurs d’Amazon affirment que ces modèles ont été formés sur des données provenant de « diverses sources, y compris des ensembles de données sous licence, propriétaires, open Source et, lorsque cela est possible, des données accessibles au public ».

Amazon ne fait pas la lumière sur le volume de données utilisées lors de la formation ni sur leur provenance exacte.

Un grand effort d’équipe rouge

Le nombre de paramètres n’est pas non plus partagé par Amazon, qui précise néanmoins que les modèles ont été entraînés à l’aide de l’infrastructure et des services AWS. SageMaker était « l’orchestrateur » des instances P5 (Nvidia H100), P4d (Nivia A100) et TRN1 (accélérateurs AWS Trainium) utilisées en parallèle lors de la formation. Ils étaient interconnectés avec la technologie réseau AWS, EFA (Elastic Fabric Adapter). En revanche, les chercheurs ne mentionnent ni le nombre de puces utilisées ni l’empreinte carbone estimée de la formation.

Quant aux processus de formation, ils sont décrits succinctement en rappelant les principales étapes pré-formation et post-formation propres aux modèles de langage et de diffusion. Amazon, quant à lui, détaille son processus d’équipe rouge, discutant du développement et des tests de 300 techniques distinctes réparties en sept catégories.

« Pour les attaques textuelles, nous nous concentrons sur les techniques adverses pour contourner les garde-fous. Pour comprendre les images et les vidéos, nous créons du contenu malveillant et explorons des vecteurs d’attaque qui intègrent des charges utiles malveillantes dans un contenu visuel apparemment inoffensif », expliquent les chercheurs. “Nous évaluons également la résistance de notre modèle aux techniques de jailbreak, c’est-à-dire la conception d’invites qui amènent le modèle à adopter des comportements interdits.”

La promesse d’une IA multimodale peu coûteuse

Vraisemblablement sûrs, mais peu transparents, propriétaires et pas forcément plus performants que leurs concurrents : les modèles Nova ont-ils leur place dans un marché déjà saturé ? Amazon et AWS ont un argument de poids : le prix.

Depuis Amazon Bedrock, Nova Micro coûte 0,000035 USD pour 1 000 jetons d’entrée et 0,00014 USD pour 1 000 jetons de sortie. Nova Lite est proposé à 0,000,06 et 0,000,4 dollars pour le même nombre de jetons entrants et sortants.

Nova Pro coûte 0,0008 $ pour 1 000 jetons d’entrée et 0,0032 $ pour 1 000 jetons de sortie.

À titre de comparaison, Claude 3.5 Sonnet est facturé 0,003 $ pour 1 000 jetons en entrée et 0,015 $ pour 1 000 jetons en sortie. D’un point de vue technique, il peut être comparé au Nova Pro, bien qu’il soit en deçà du modèle Anthropic.

Mais la première nécessite de payer 3 dollars pour 1 million de tokens en entrée et 15 dollars pour 1 million de tokens en sortie. Avec Nova Pro, ce prix tombe à 0,8 $ pour 1 million de jetons d’entrée et à 3,2 $ pour 1 million de jetons de sortie.

« Amazon Nova Micro, Amazon Nova Lite et Amazon Nova Pro sont au moins 75 % moins chers que les modèles les plus performants dans leurs classes d’intelligence respectives dans Amazon Bedrock », déclare le géant du commerce électronique et du cloud dans un communiqué de presse.

“Si cela est vrai, c’est une très bonne affaire”, déclare Mark Beccue, analyste principal chez Enterprise Strategy Group, filiale d’Informa Techtarget (également propriétaire de MagIT). « Chaque fois que vous exécutez les modèles, ils doivent être suffisamment bon marché pour vous permettre de prendre en charge les cas d’utilisation. »

Ce serait une difficulté de moins pour les entreprises qui ont bien compris l’intérêt de cette technologie dans certains domaines.

Nova Canvas est facturé en fonction de la taille et de la qualité de l’image. Une image de qualité standard d’une taille ne dépassant pas 1 024 pixels coûte 0,04 $, contre 0,06 $ pour une qualité « premium ». On passe à 0,06 dollars en standard et 0,08 dollars en premium pour une image avec une résolution maximale de 2048×2048 pixels. À titre de comparaison, sur Amazon Bedrock, une image générée par Stable Diffusion 3.0 Large coûte 0,08 $. OpenAI facture des prix similaires avec DALL E-3.

Enfin, une seconde de vidéo générée avec Nova Reel coûte 0,08 $.

For Latest Updates Follow us on Google News