SAN FRANCISCO – Google, filiale d’Alphabet, a présenté mercredi la deuxième génération de son modèle d’intelligence artificielle Gemini et a annoncé une série de nouvelles façons d’utiliser l’IA au-delà des chatbots, notamment à travers une paire de lunettes.
Dans un article de blog, le PDG Sundar Pichai a qualifié ce moment de début d’une « nouvelle ère agentique », faisant référence à des assistants virtuels capables d’accomplir des tâches avec une plus grande autonomie.
« Ils sont capables de mieux comprendre le monde qui vous entoure, d’anticiper et d’agir en votre nom, sous votre direction.
Ces communiqués mettent en lumière les méthodes utilisées par Google pour reprendre la tête de la course à la domination de cette technologie émergente. OpenAI, soutenu par Microsoft, a attiré l’attention du monde entier lorsqu’il a lancé le chatbot ChatGPT en novembre 2022.
Google a dévoilé Gemini en décembre 2023 et propose désormais quatre versions.
Mercredi, il a publié une mise à jour de Flash, son deuxième modèle le moins cher, avec des performances améliorées et des fonctions supplémentaires pour le traitement des images et du son. D’autres modèles seront proposés l’année prochaine.
OpenAI a annoncé une multitude de nouvelles offres ces derniers jours pour diversifier ses perspectives, notamment un abonnement ChatGPT de 200 $ par mois pour une utilisation de recherche avancée et la disponibilité de son modèle de conversion texte-vidéo Sora.
Le jeu de Google consiste à injecter ses avancées en matière d’IA dans des applications déjà largement adoptées. Search, Android et YouTube font partie des sept produits qui, selon la société, sont utilisés par plus de 2 milliards de personnes chaque mois.
Cette base d’utilisateurs constitue un énorme avantage par rapport aux startups concurrentes comme la startup de recherche Perplexity, qui recherche une valorisation de 9 milliards de dollars, et aux nouveaux laboratoires de recherche comme OpenAI, Anthropic ou xAI Musk d’Elon.
Le modèle Gemini 2.0 Flash alimentera des applications telles que les aperçus IA dans son moteur de recherche.
Le plus gros pari d’Alphabet est l’IA pour la recherche, a déclaré Ruth Porat, présidente et directrice des investissements, lors de la conférence Reuters NEXT à New York mardi.
Google a également montré aux journalistes les nouvelles capacités du projet Astra, un prototype d’agent universel capable de communiquer en - opportun aux utilisateurs de tout ce qui est capturé par l’appareil photo de leur smartphone.
L’outil peut désormais tenir une conversation dans plusieurs langues, ainsi que traiter les informations de Maps et de l’outil de reconnaissance d’image Lens, a déclaré Bibo Xu, chef de produit de DeepMind Group, aux journalistes.
Astra sera également testée sur des prototypes de lunettes, ce qui constitue le premier retour de l’entreprise dans ce domaine depuis l’échec des Google Glasses. D’autres sont depuis entrés sur le marché, notamment Meta, qui a dévoilé un prototype de lunettes AR en septembre.
Google a également présenté aux journalistes le projet Mariner, une extension du navigateur web Chrome permettant d’automatiser les frappes et clics de souris, dans la veine de la fonction « utilisation informatique » du laboratoire concurrent Anthropic, une fonction destinée à améliorer le codage des logiciels, baptisé Jules. , et un outil pour aider les consommateurs à prendre des décisions, telles que quoi faire ou quels articles acheter dans les jeux vidéo.