OpenAI et Google équipent leurs LLM de capacités d’analyse visuelle en direct

OpenAI déploie un mode vidéo interactif pour ChatGPT, tandis que Google présente son API Multimodale Live. Capables d’analyser la voix et la vidéo, ces innovations ouvrent la voie à des assistants IA qui interagissent en - réel avec les saisies des utilisateurs.

OpenAI a annoncé sur X le déploiement progressif d’une nouvelle fonctionnalité profitant de l’analyse des informations visuelles en - réel. Les utilisateurs des abonnements ChatGPT Plus, Pro et Team pourront interagir en direct avec ChatGPT via le mode vidéo de leur smartphone et en partageant des captures d’écran. Cette mise à jour permet d’obtenir un retour immédiat du chatbot sur le contenu à l’écran ou d’obtenir des explications, par exemple sur des menus de réglages ou des problèmes mathématiques.

Pour utiliser ces nouvelles fonctionnalités, les utilisateurs doivent activer le mode Voix Avancé en appuyant sur l’icône vocale dans la barre de discussion. Une option vidéo en bas à gauche permet aux utilisateurs de lancer un appel vidéo, tandis que l’option de partage d’écran se trouve dans le menu à trois points.

Veuillez noter que la fonctionnalité n’est actuellement pas proposée en Europe ni en Suisse.

API pour les interactions multimodales en - réel

L’annonce d’OpenAI intervient peu après le lancement de Gemini 2.0, la nouvelle version majeure de la famille de modèles linguistiques développés par Google. De nombreuses fonctionnalités ont été dévoilées, dont une utilisant des capacités d’analyse visuelle en - réel : l’API Multimodal Live, destinée aux développeurs. L’API est conçue pour leur permettre de créer des applications dynamiques et interactives, selon Google.

Cette API multimodale permet des interactions bidirectionnelles en - réel en traitant simultanément les entrées texte, audio et vidéo, avec des réponses qui peuvent être générées sous forme de texte ou d’audio. Il se distingue par sa faible latence et sa capacité à gérer des conversations naturelles, notamment en tenant compte des interruptions et en détectant automatiquement l’activité vocale. L’API élargit considérablement la gamme d’options de communication, permettant aux utilisateurs de partager des flux vidéo tels que des captures d’écran ou des entrées de caméra, tout en posant des questions directement sur ce contenu, lit la documentation que Google envoie aux développeurs d’applications.

De son côté, OpenAI avait déjà introduit une innovation similaire en octobre dernier avec son API Realtime, qui reprend certains principes du Advanced Voice Mode de ChatGPT. Cette API permet des conversations parole-parole, donnant aux développeurs la possibilité d’intégrer des entrées textuelles ou audio et des réponses personnalisées sous forme de texte, d’audio ou les deux, explique OpenAI.

For Latest Updates Follow us on Google News

API pour les interactions multimodales en - réel

Related posts