L’IA générative d’Elon Musk peut désormais comprendre et analyser les images

L’IA générative d’Elon Musk peut désormais comprendre et analyser les images
Descriptive text here

Alors que Gemini 1.5 Pro de Google vient de prendre en charge le contenu audio, Grok de xAI s’attaque à la compréhension et à l’analyse des images.

Publicité, votre contenu continue ci-dessous

Dans un article de blog publié le 12 avril 2024, xAI, la société d’Elon Musk qui a développé l’IA générative, annonce que la version 1.5V de Grok «peut désormais traiter une grande variété d’informations visuelles, notamment des documents, des tableaux, des graphiques, des captures d’écran et des photographies».

Bientôt disponible pour premiers testeurs et les utilisateurs existants, cette nouvelle fonctionnalité transforme Grok en un modèle d’IA multimodal, car il prend désormais en charge différents types de données (ici texte et image).

Côté performances, les développeurs xAI soulignent que Grok 1.5V «surpasse ses concurrents dans notre nouveau benchmark RealWorldQA, qui évalue la compréhension spatiale du monde réel». Pour ce faire, ce dernier teste les différents modèles d’IA sur plus de 700 images en leur posant une question dont la réponse est «facilement vérifiable pour chaque image».

Par exemple :

  • Quel objet est le plus gros : le coupe-pizza ou les ciseaux ?
    • A. Le coupe-pizza est plus grand.
    • B. Les ciseaux sont plus gros.
    • C. Ils ont à peu près la même taille ;
  • Compte tenu de la vue de la caméra frontale de notre berline, avons-nous suffisamment d’espace pour contourner la voiture grise devant nous ?

Le tableau comparatif révèle également des résultats supérieurs à la concurrence pour les tests Mathivista, mathématiques et TextVQA pour la lecture de textes.

Le billet de blog se termine en discutant des prochaines avancées prévues par xAI concernant le modèle Grok AI : améliorer la compréhension multimodale et les capacités génératives. “Dans les mois à venir, nous prévoyons d’apporter des améliorations significatives à ces deux fonctionnalités, dans diverses modalités telles que les images, l’audio et la vidéo.», conclut l’entreprise d’Elon Musk.

Publicité, votre contenu continue ci-dessous

 
For Latest Updates Follow us on Google News
 

PREV La nébuleuse de la Tête de Cheval révélée en détail par le télescope James Webb – 30/04/2024 à 00h44 – .
NEXT La nébuleuse de la Tête de Cheval révélée en détail par le télescope James Webb – 30/04/2024 à 00h44 – .