ChatGPT se rapproche de l’idéal d’une IA capable de converser comme un humain

ChatGPT se rapproche de l’idéal d’une IA capable de converser comme un humain
ChatGPT se rapproche de l’idéal d’une IA capable de converser comme un humain

ChatGPT réussira-t-il là où Siri et Alexa ont échoué ? Au début des années 2010, les assistants vocaux sont arrivés sur les smartphones et les ordinateurs. Mais après l’étonnement initial des utilisateurs, des limites flagrantes sont apparues : difficultés à comprendre ce qui se dit, lenteur à répondre, impossibilité d’avoir une vraie conversation… Autant de barrières qui ont vite limité leur utilisation, mais que ChatGPT est déjà dépassée.

Ce lundi, OpenAI a présenté la prochaine mise à jour de son célèbre chatbot, propulsé par un nouveau modèle d’IA baptisé GPT4-omni (ou GPT-4o). Grâce à ce nouveau moteur, ChatGPT peut tenir une conversation orale avec la même fluidité qu’un humain, mais aussi lire et commenter des images, ou encore traduire en temps réel. En d’autres termes, la société vedette de l’IA a réussi à réduire comme jamais auparavant les frictions entre les capacités textuelles, vocales et visuelles de l’intelligence artificielle. Sam Altman compare ainsi son IA à celle du film Son (2013), tandis que d’autres passionnés y voient un lien avec l’IA Jarvis, l’assistant du super-héros Homme de fer.

Lire aussiIntelligence artificielle : pourquoi l’été sera décisif pour l’avenir d’OpenAI

Vitesse de conversation humaine

Avec GPT-4o, OpenAI introduit une nouvelle norme pour les interactions homme-machine. Sa nouvelle IA parvient à lire, écouter et voir, ainsi qu’à générer du texte, du son et des images… à la vitesse d’un humain. Plus précisément, l’IA s’exécute très rapidement, avec un temps de réponse moyen de 0,32 seconde pour un contenu audio par exemple. Résultat : la vitesse de conversation entre ChatGPT et l’utilisateur est aussi rapide que celle entre deux humains, ce qui offre de nouvelles possibilités, comme la possibilité de couper efficacement l’IA, là où Siri et Alexa ont pris le temps (parfois plusieurs secondes) de terminer. leurs phrases.

C’est une première. Avant cette mise à jour, ChatGPT disposait déjà d’un « mode vocal » pour les conversations parlées, mais il fallait en moyenne plus de cinq secondes pour répondre. La raison ? Il a exécuté successivement trois modèles d’IA : un pour traduire le son en texte, un pour analyser le texte et générer une réponse textuelle, et enfin un dernier pour traduire le texte en son. En plus d’allonger le temps de calcul, cette chaîne d’information avait l’inconvénient d’appauvrir l’efficacité du modèle d’IA le plus puissant – celui qui perçoit le plus d’informations et génère la réponse.

Pour résoudre ce problème, GPT-4o est un modèle tout-en-un, qui intègre également des capacités de vision. Puisqu’elle perd moins d’informations, elle donne à l’IA une nouvelle granularité de compréhension. ChatGPT fait la distinction entre les différents utilisateurs, comprend leur ton de voix ou encore leurs émotions. Mieux encore, GPT-4o n’est pas seulement plus polyvalent que GPT-4 Turbo, le précédent modèle phare de ChatGPT. Il est aussi (légèrement) plus efficace dans tous les cas d’usage, plus rapide, et surtout deux fois moins cher (notamment en facturation API pour les entreprises).

Une prouesse technique, dans quel but ?

Après les progrès techniques, la question des cas d’usage se pose : parler à voix haute avec une IA n’est pas si pratique dans de nombreux contextes. Sur scène, Mura Murati (la CTO d’OpenAI) et ses équipes ont donc multiplié les exemples. Embarqué sur un iPhone, ChatGPT aide en temps réel un ingénieur qui tente de résoudre un problème de mathématiques écrit sur une feuille de papier ; traduit en direct une discussion anglo-italienne ; ou encore décrypter à haute voix à quoi servent les lignes de code informatique affichées sur un écran. Sur son site, OpenAI ajoute une preuve de concept pour une application en service client, ainsi que l’intégration de son IA avec l’application BeMyEyes qui aide les personnes déficientes visuelles en décrivant l’environnement depuis la caméra du smartphone.

Lire aussiCourse à l’IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Mais attention, la nouvelle interface ChatGPT n’efface pas son principal défaut : l’outil est toujours incapable de garantir des informations fiables, et ne parvient toujours pas à obtenir ses réponses depuis Internet. Autrement dit, OpenAI a fait un premier (grand) pas dans l’expérience utilisateur de son outil phare, mais il lui faudra toujours un modèle d’IA plus performant (comme le très attendu GPT-5) pour s’ouvrir à un plus grand nombre de cas d’usage. .

ChatGPT bientôt sur iPhone ?

Les utilisateurs de ChatGPT devront être patients avant de tester la nouvelle rétention vocale, qui sera uniquement intégrée” dans quelques semaines » après une phase de tests de sécurité. D’autant qu’dans un premier temps, il sera réservé aux abonnés ChatGPT Plus (20 euros par mois). Si OpenAI a fait sa présentation si longtemps avant la mise à jour, c’est apparemment pour couper l’herbe sous le pied de Google, qui organise ce mardi sa conférence annuelle, Google I/O. Le géant de la tech est, avec Anthropic et Meta, l’un de ses principaux concurrents.

Comme une bonne nouvelle n’arrive pas seule pour OpenAI, un article de Bloomberg publié plus tôt lundi, a rapporté que la société était sur le point de signer un accord avec Apple pour amener ChatGPT sur l’iPhone, le smartphone le plus vendu au monde. De quoi imaginer que ChatGPT met au placard Siri, l’assistant vocal pionnier resté en son temps. À suivre…

 
For Latest Updates Follow us on Google News
 

PREV qu’est-ce qu’un iPad ? – .
NEXT Cultiver de la nourriture sur la Lune