Pixtral 12B de Mistral AI : multimodal et open source

Pixtral 12B de Mistral AI : multimodal et open source
Pixtral 12B de Mistral AI : multimodal et open source

Avec ses 12 milliards de paramètres, Pixtral 12B propose non pas de la génération d’images, mais de l’analyse d’images. Il s’agit du premier modèle multimodal de la start-up française. Bonne nouvelle : il peut être utilisé, modifié et amélioré, car il est open Source.

Mistral AI a décidé de s’attaquer aux modèles multimodaux et c’est pour le moins un coup de maître. Pixtral 12B, c’est son nom, est nativement multimodal. Il est entraîné avec des données d’images et de textes entrelacées.

L’architecture comprend un nouvel encodeur de vision de 400 millions de paramètres, formé à partir de zéro. Le décodeur multimodal de 12 milliards de paramètres est basé sur Mistral Nemo. La licence choisie est open Source, Apache 2.0. Toutes les invites seront open Source.

Pixtral peut être utilisé pour comprendre avec précision des diagrammes, des graphiques et des documents complexes en haute définition, tout en garantissant des vitesses d’inférence rapides pour les petites images comme les icônes, les cliparts et les équations.

Mistral explique qu’il a « Nous avons réévalué une gamme de modèles open Source et propriétaires en utilisant le même cadre d’évaluation : pour chaque ensemble de données, l’invite a été choisie pour reproduire les résultats de modèles multimodaux connus (GPT-4o et Claude-3.5-Sonnet). Tous les modèles ont ensuite été évalués à l’aide de cette même invite « .

Globalement, Pixtral surpasserait tous les modèles open Source de sa taille, selon Mistral AI. Dans certains cas, il surpasserait des modèles propriétaires comme Claude 3 Haiku. Pixtral égalerait les performances de modèles beaucoup plus grands comme LLaVa OneVision 72B sur les benchmarks multimodaux. Enfin, il surpasserait Qwen2-VL 7B, LLaVa-OneVision 7B et Phi-3.5 Vision en matière de suivi des instructions.

Vous pouvez tester Pixtral 12B sur La Plateforme ou sur Le Chat. Le moyen le plus simple d’exécuter Pixtral localement est d’utiliser inférence mistral. Tous les détails sont fournis par Mistral AI dans cet article de blog très technique (en anglais), destiné notamment aux développeurs.

J’aime ça:

J’aime chargement…

 
For Latest Updates Follow us on Google News
 

PREV XLGAMES dévoile ArcheAge Chronicles, anciennement connu sous le nom d’ArcheAge 2
NEXT L’iPhone 13 bénéficie d’une offre quasiment jamais vue sur le web : n’attendez pas