OpenAI lance l’opérateur, un agent d’IA qui effectue des tâches de manière autonome

Friday 24th January 2025 12:07 AM

Le PDG d’Openai, Sam Altman, a débuté cette année en disant dans un article de blog que 2025 serait important pour les agents de l’IA, des outils qui peuvent automatiser les tâches et prendre des mesures en votre nom.

Maintenant, nous voyons la première véritable tentative d’Openai.

OpenAI a annoncé jeudi qu’il lançait un aperçu de recherche d’opérateur, un agent d’IA à usage général qui peut prendre le contrôle d’un navigateur Web et effectuer indépendamment certaines actions. L’opérateur arrive aux utilisateurs américains sur le plan d’abonnement Pro de 200 $ de Chatgpt. Openai dit qu’il prévoit de déployer cette fonctionnalité à plus d’utilisateurs dans ses niveaux de plus, d’équipe et d’entreprise.

“[Operator] sera [in] D’autres pays bientôt », a déclaré le PDG d’Openai, Sam Altman, lors d’une diffusion en direct jeudi. «L’Europe prendra malheureusement un certain temps.»

Cet aperçu de recherche initial est disponible via operator.chatgpt.com, mais bientôt, Openai dit qu’il souhaite intégrer l’opérateur dans tous ses clients ChatGpt.

Écran d’accueil de l’opérateur.Crédits d’image:Openai

L’opérateur promet d’automatiser des tâches telles que la réservation d’hébergement de voyage, la fabrication de réservations de restaurants et les achats en ligne, selon Openai. Il existe plusieurs catégories de tâches que les utilisateurs peuvent choisir dans l’interface de l’opérateur, y compris les achats, la livraison, la restauration et les voyages, ce qui permette tous différents types d’automatisation.

Lorsque les utilisateurs de ChatGPT activent l’opérateur, une petite fenêtre apparaîtra montrant un navigateur Web dédié que l’agent utilise pour effectuer des tâches, ainsi que des explications des actions spécifiques que l’agent effectue. Les utilisateurs peuvent toujours prendre le contrôle de leur écran pendant que l’opérateur fonctionne, car l’opérateur utilise son propre navigateur dédié.

Openai dit que l’opérateur est alimenté par un modèle d’agent à utiliser par ordinateur, ou CUA, qui combine les capacités de vision du modèle GPT-4O de l’entreprise avec des capacités de raisonnement des modèles les plus avancés d’Openai. L’AUA est formée pour interagir avec le front-end des sites Web, ce qui signifie qu’il n’a pas besoin d’utiliser des API orientées développeurs pour exploiter différents services.

En d’autres termes, le CUA peut utiliser des boutons, naviguer dans les menus et remplir des formulaires sur une page Web un peu comme un humain.

Openai dit qu’il collabore avec des entreprises comme Doordash, eBay, Instacart, Priceline, StubHub et Uber pour s’assurer que l’opérateur respecte les conditions d’utilisation des conditions de service de ces entreprises.

Crédits d’image:Openai

«Le modèle CUA est formé pour demander la confirmation de l’utilisateur avant de finaliser les tâches avec des effets secondaires externes, par exemple avant de soumettre une commande, d’envoyer un e-mail, etc., afin que l’utilisateur puisse revérifier le travail du modèle avant qu’il ne devienne permanent», » Openai écrit dans des matériaux fournis à TechCrunch. “[It] s’est déjà révélé utile dans une variété de cas, et nous visons à étendre cette fiabilité à travers un plus large éventail de tâches. »

Mais Openai avertit que la CUA n’est pas parfaite. L’entreprise le dit «[doesn’t] attendre [the] CUA pour jouer de manière fiable dans tous les scénarios pour l’instant. »

«Actuellement, l’opérateur ne peut pas gérer de manière fiable de nombreuses tâches complexes ou spécialisées», ajoute OpenAI dans un document d’assistance, «comme la création de diaporamas détaillés, la gestion des systèmes de calendrier complexes ou l’interaction avec des interfaces Web hautement personnalisées ou non standard.

Par une abondance de prudence, OpenAI nécessite également une supervision pour certaines tâches, comme les transactions bancaires, le CUA et l’opérateur pourraient se produire principalement par eux-mêmes. Les utilisateurs devront prendre le relais pour installer des informations sur la carte de crédit, par exemple. OpenAI dit que l’opérateur ne collecte ni ne capture de données.

«Sur les sites Web particulièrement sensibles, tels que les e-mails, l’opérateur nécessite une supervision active des utilisateurs, garantissant que les utilisateurs peuvent attraper directement et faire face à toutes les erreurs potentielles que le modèle pourrait faire», explique Openai dans ses documents de support.

Cela limite l’utilité de l’opérateur, bien sûr – mais garantit également que l’agent n’hallucine pas et, disons, dépensez votre paiement hypothécaire sur les chaises d’accent. Google a adopté une approche similaire avec son agent Project Mariner AI, qui ne remplit pas non plus d’informations comme les numéros de carte de crédit.

Limites

L’opérateur a quelques limitations à noter.

Il y a des limites de taux – à la fois quotidiennes et dépendantes des tâches. Openai dit que l’opérateur peut effectuer plusieurs tâches à la fois, mais qu’il y a des «limites dynamiques» à ce sujet. Il existe également une limite d’utilisation globale qui réinitialise quotidiennement.

À cette étape de version, l’opérateur refusera également d’effectuer des tâches pour des raisons de sécurité, comme envoyer des e-mails (malgré le fait que le CAU en est capable) et la suppression des événements de calendrier. Openai dit que cela changera à l’avenir, mais ne donne pas d’ETA.

L’opérateur peut également être «coincé» s’il se présente dans une interface, un champ de mot de passe ou une vérification CAPTCHA particulièrement complexe. Il demandera à l’utilisateur de prendre le relais quand cela se produira, dit Openai.

Un avenir agentique

OpenAI a été assez lent pour développer un agent d’IA par rapport aux rivaux (voir: les agents de Rabbit, Google et Anthropic), ce qui peut avoir quelque chose à voir avec les risques de sécurité autour de la technologie.

Lorsqu’un système d’IA peut prendre des mesures sur le Web, il ouvre la porte à des cas d’utilisation beaucoup plus dangereux des acteurs néfastes. Vous pouvez automatiser les agents d’IA pour orchestrer les escroqueries de phishing ou les attaques DDOS, ou les faire arracher des billets à un concert avant que quelqu’un d’autre le puisse. Surtout pour un outil aussi largement utilisé comme Chatgpt, il est important de prendre des mesures pour empêcher ces types d’exploits.

Openai semble penser que l’opérateur est suffisamment sûr pour sortir sous sa forme actuelle, du moins en tant que prévisualisation de recherche.

«L’opérateur utilise des outils qui cherchent à limiter la sensibilité du modèle aux invites malveillantes, aux instructions cachées et aux tentatives de phishing», explique Openai sur son site Web. «Un système de surveillance fait une pause exécution si une activité suspecte est détectée, tandis que les pipelines automatisés et évalués par l’homme mettent en continu des garanties.»

L’opérateur est la tentative la plus audacieuse d’Openai à ce jour de créer un agent d’IA. La semaine dernière, OpenAI a publié des tâches, donnant aux fonctionnalités d’automatisation simples de Chatgpt telles que la possibilité de définir des rappels et de planifier des invites à fonctionner à un moment défini chaque jour.

Les tâches ont donné aux utilisateurs de Chatgpt certaines fonctionnalités familières, mais nécessaires, pour rendre le chatppt aussi pratique à utiliser comme Siri ou Alexa. Cependant, l’opérateur montre des capacités que la génération précédente d’assistants virtuelles ne pourrait jamais faire.

Les agents de l’IA ont été présentés comme la prochaine grande chose dans l’IA après Chatgpt: une nouvelle technologie qui changera la façon dont les gens utilisent Internet et leurs PC. Au lieu de simplement fournir et de traiter les informations, les agents peuvent – en théorie – prendre des mesures et faire des choses.

Avec la sortie de la première version du béton d’Openai sur les agents, il deviendra bientôt clair à quel point cette vision est réaliste.

For Latest Updates Follow us on Google News