un assistant IA multimodal qui peut voir le monde à travers la caméra de votre appareil et analyser et comprendre les objets devant lui comme le font les humains

Demis Hassabis, PDG de Google DeepMind, a dévoilé mardi un nouvel assistant universel piloté par l’IA qui peut être utilisé au quotidien. Baptisé « Projet Astra », il s’agit d’un chatbot IA multimodal capable de « voir » le monde à travers l’objectif de l’appareil photo de votre smartphone, puis d’analyser et de comprendre les objets placés devant lui, comme le font les humains. Le AI Lab d’Alphabet affirme que tout cela fonctionne en temps réel et de manière conversationnelle. Il ajoute en outre que le nouvel agent IA est plus puissant et plus avancé que la version actuelle de Gemini, le modèle de langage étendu le plus avancé de Google.

Les agents conversationnels Siri et Alexa n’ont jamais réussi à devenir des assistants utiles. Mais Google, OpenAI et d’autres sociétés d’IA sont convaincus que la prochaine génération d’assistants fonctionnera réellement et aboutira à des outils universels. Lors de la conférence Google I/O mardi, Hassabis a présenté une toute première version de ce qu’il espère devenir cet assistant universel. Nous aurons un assistant universel. Il est multimodal et vous accompagne en permanence. C’est cet assistant qui est tout simplement utile. On s’habitue à être là quand on en a besoin », a déclaré Hassabis.

Google appelle cet assistant Project Astra et il s’agit d’un assistant d’IA multimodal en temps réel qui peut voir le monde, savoir où se trouvent les objets et où vous les avez laissés, et peut répondre à des questions ou vous aider à faire presque tout. Lors d’une démonstration, l’assistant a démontré ses capacités en identifiant des objets produisant du son, en fournissant des allitérations créatives, en expliquant le code sur un écran et en localisant des objets égarés. Agent universel Astra utile dans la vie de tous les jours, a déclaré Hassabis en présentant les capacités de son nouvel assistant.

L’assistant IA a également montré son potentiel dans les appareils portables, tels que les lunettes intelligentes, où il peut analyser des diagrammes, suggérer des améliorations et générer des réponses pleines d’esprit aux invites visuelles. Google DeepMind affirme qu’Astra utilise la caméra et le microphone de l’appareil de l’utilisateur pour l’aider dans sa vie quotidienne. En traitant et en codant en continu les images vidéo et les données vocales, Astra crée une chronologie des événements et met en cache les informations pour un rappel rapide. L’entreprise affirme que cela permet à l’IA d’identifier des objets.

Astra peut également répondre aux questions et se souvenir de choses qu’elle a vues et qui ne sont plus visibles par la caméra. Le projet Astra n’en est qu’à ses débuts et n’a pas de plans de lancement spécifiques, mais Google a laissé entendre que certaines de ces fonctionnalités pourraient être intégrées à des produits comme l’application Gemini plus tard cette année. année (via une mise à jour appelée « Gemini Live »). Il s’agit d’une tentative de créer un agent doté d’une « agence » capable de « penser à l’avance, raisonner et planifier en votre nom », a déclaré Sundar Pichai, PDG de Google.

Selon la vidéo publiée hier par Google lors d’une conférence de presse, Astra semble être une application dont l’interface principale est un viseur. Une personne tenant un téléphone pointe son appareil photo vers différentes parties d’un bureau et demande à l’assistant : « Dites-moi quand vous voyez quelque chose qui fait du bruit. » Lorsqu’un haut-parleur à côté d’un écran est apparu, Gemini a répondu : « Je vois un haut-parleur qui émet un son. » La personne a ensuite dessiné une flèche sur l’écran vers le cercle supérieur du haut-parleur et a demandé au logiciel : Comment s’appelle cette partie du haut-parleur ? .

Gemini n’a pas tardé à répondre : c’est le tweeter. Le testeur s’est déplacé vers un pot à crayons plus loin sur la table et a demandé : « Donnez-moi une allitération créative à propos de ces crayons. » Ce à quoi l’assistant IA a répondu : les crayons créatifs colorent joyeusement. Ils font certainement des créations colorées. Le reste de la vidéo montre l’assistant IA identifiant et expliquant des parties de code sur un moniteur et indiquant à l’utilisateur dans quel quartier il se trouve en fonction de la vue par la fenêtre. Cela montre également la capacité du système à mémoriser l’emplacement des objets.

Astra a pu répondre à la question, te souviens-tu où tu as vu mes lunettes ? , même si ces lunettes étaient complètement hors de la monture et n’avaient pas été signalées auparavant. Oui, je m’en souviens, répondit Gemini, ajoutant : tes lunettes étaient sur un bureau, près d’une pomme rouge. Cela signifie qu’Astra traite non seulement les données visuelles en temps réel, mais se souvient également de ce qu’elle a vu et travaille avec une quantité impressionnante d’informations stockées. Dans la vidéo de démonstration, l’assistant IA réagit presque spontanément.

Selon Hassabis, ce résultat a été obtenu parce que ces « agents » ont été « conçus pour traiter les informations plus rapidement en codant continuellement des images vidéo, en combinant les entrées vidéo et vocales dans une chronologie d’événements et en mettant en cache ces informations pour une mémorisation efficace ». article de blog : Bien que nous ayons réalisé des progrès incroyables dans le développement de systèmes d’IA capables de comprendre les informations multimodales, réduire le temps de réponse au niveau conversationnel reste un défi. défi technique difficile à relever.

Astra n’est que l’une des nombreuses annonces de Gemini lors de l’I/O de cette année. Il a introduit un nouveau modèle d’IA appelé Gemini 1.5 Flash, conçu pour être plus rapide dans les tâches courantes telles que le résumé et le sous-titrage. Un autre nouveau modèle, Veo, permet de générer une vidéo à partir de texte. Gemini Nano, le modèle conçu pour être utilisé localement sur des appareils tels que votre téléphone, serait également plus rapide que jamais. La fenêtre contextuelle de Gemini Pro est doublée pour atteindre 2 millions de jetons, ce qui, selon Google, améliore sa capacité à suivre les instructions.

Les annonces de Google sur l’IA lors de la conférence I/O visent à rendre Gemini plus facile à utiliser. Un nouveau produit appelé Gemini Live est un assistant vocal qui vous permet d’avoir des conversations faciles avec le modèle. Une nouvelle fonctionnalité de Google Lens vous permet d’effectuer des recherches sur le Web en filmant et en racontant une vidéo. Tout cela est rendu possible grâce à la grande fenêtre pop-up de Gemini, qui lui permet d’accéder à une grande quantité d’informations à la fois. Selon Hassabis, il s’agit d’un élément clé pour rendre l’interaction avec votre assistant normale et naturelle.

OpenAI travaille également sur un assistant IA de nouvelle génération qui sera vraiment « utile ». De son côté, OpenAI a présenté GPT-4o, un produit Gemini Flash similaire. Google et OpenAI se battent de plus en plus pour le même territoire et semblent partager une vision de la manière dont l’IA pourrait changer nos vies et comment nous pourrions l’utiliser au fil du temps. Comment fonctionneront exactement ces assistants IA et comment les utiliserions-nous ? À l’heure actuelle, personne ne le sait avec certitude, pas même Hassabis ou Sam Altman, PDG d’OpenAI.

Google se concentre actuellement sur la planification des voyages. Il a créé un nouvel outil permettant d’utiliser Gemini pour créer un itinéraire de vacances que vous pouvez ensuite modifier en tandem avec l’assistant. Il y aura éventuellement beaucoup plus de fonctionnalités comme celle-ci. Hassabis est convaincu que les téléphones et les lunettes intelligentes seront les principaux appareils utilisés par ces agents. Cela a amené certains critiques à se demander si l’entreprise envisageait de réinventer les Google Glass. Cependant, Hassabis a ajouté qu’il y avait probablement de la place pour d’autres facteurs de forme intéressants.

Source : Google

Et toi ?

Quelle est votre opinion sur le sujet ?

Que pensez-vous du nouvel assistant IA multimodal Astra de Google ?

Le projet Astra est-il l’avenir des assistants numériques comme le prétend Google ?

Quels pourraient être les cas d’utilisation potentiels de ces assistants IA de nouvelle génération ?

Quels sont les problèmes de confidentialité posés par les assistants IA comme Project Astra ?

Voir aussi

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L’entreprise présente son modèle qui représente l’avenir de l’interaction entre nous et les machines

Alexa Plus : Amazon travaille sur une version payante d’Alexa mais rencontre déjà des difficultés techniques et organisationnelles, la qualité des réponses n’est toujours pas à la hauteur des attentes

OpenAI développe un assistant vocal IA, se positionnant comme un concurrent direct de Google et Apple. La technologie est capable de voir, d’entendre et de parler, elle peut reconnaître des objets

 
For Latest Updates Follow us on Google News
 

PREV Succès de la consultation sur les trajectoires pouvant mener aux études supérieures • Néo UQTR – .
NEXT Toujours moins de 800 euros ce mercredi ? Le Google Pixel 8 Pro 5G dans une offre folle