L’opérateur est capable d’automatiser des tâches complexes préalablement effectuées par l’utilisateur dans son navigateur Web.
La rumeur était vraie. Deux jours après l’annonce du projet Stargate, OpenAI dévoile ce jeudi 23 janvier 2025 son premier agent d’intelligence artificielle conçu pour le web. Selon la définition d’OpenAI, un agent est une intelligence artificielle capable de travailler de manière autonome : on lui confie une tâche, il l’exécute. “Nous pensons qu’il s’agit d’une tendance majeure qui aura un impact sur la façon dont les gens travaillent, leur productivité, leur créativité, ce qu’ils peuvent accomplir”, explique Sam Altman en introduction. Operator en est la première incarnation : un assistant doté de son propre navigateur Web, capable de voir et d’interagir avec les pages comme le ferait un humain, que ce soit pour remplir un formulaire, commander des courses ou créer un mème.
Comment fonctionne l’Opérateur ?
Sous le capot, Operator est alimenté par un nouveau modèle appelé « Computer-Using Agent » ou « CUA ». Cette IA combine les capacités de vision de GPT-4o avec un système de raisonnement avancé, développé par apprentissage par renforcement. Concrètement, le modèle peut voir ce qui est affiché sur l’écran du navigateur Opérateur via des captures d’écran et interagir avec tous les éléments d’une interface graphique – boutons, menus, champs de texte – à l’aide d’un clavier et d’une souris virtuelle.
Si le système rencontre un obstacle ou commet une erreur, il peut s’auto-corriger grâce à ses capacités de raisonnement. Selon OpenAI, CUA établit déjà de nouveaux records sur les benchmarks de navigation Web automatisée WebArena et WebVoyager. En cas de blocage, l’agent n’insiste pas : il passe simplement le relais à l’utilisateur.
-Quels sont les premiers cas d’usage ?
Pour son lancement, Operator se concentre prioritairement sur les cas d’usages chronophages ou répétitifs. Il peut remplir des formulaires, commander des produits d’épicerie en ligne et même créer des mèmes. Pour commencer, décrivez simplement en langage naturel ce que vous souhaitez accomplir. L’agent prend ensuite le contrôle de son propre navigateur et exécute la tâche, demandant l’approbation de l’utilisateur pour les actions importantes.
OpenAI s’est associé à plusieurs géants du Web : DoorDash (livraison de repas), Instacart (livraison de courses), OpenTable (réservations de restaurants), Priceline (réservations de voyages), StubHub (billetterie d’événements) et Uber pour optimiser l’expérience sur différentes plateformes. L’objectif est double : améliorer l’efficacité de l’agent tout en respectant les normes établies par ces services. OpenAI explore également le potentiel d’Operator dans les services publics. Un partenariat pilote avec la ville de Stockton, en Californie, vise à faciliter l’accès des citoyens aux services municipaux.
Un agent ultra-premium
OpenAI a déployé trois niveaux de protection pour réguler son agent. Au premier niveau, l’opérateur est programmé pour céder le contrôle à l’utilisateur aux moments critiques : saisie d’informations sensibles telles que les identifiants de connexion ou les données de paiement, résolution CAPTCHA ou validation finale d’une commande. Au deuxième niveau, la protection des données : les utilisateurs peuvent effacer leur historique de navigation en un clic et désactiver l’utilisation de leurs données pour l’entraînement des modèles. Enfin, OpenAI a mis en place des mesures de sécurité contre les sites Web malveillants qui tentent de manipuler l’agent via des injections d’invites cachées ou de code malveillant. Un « modèle de surveillance » surveille en permanence le comportement de l’opérateur et peut suspendre une tâche au moindre soupçon d’activité suspecte.
Operator n’est accessible qu’aux abonnés Pro (le plus haut niveau de ChatGPT à 200 $) connectés depuis les États-Unis, via la plateforme dédiée Operator.chatgpt.com. OpenAI prévoit d’étendre progressivement l’accès aux abonnés Plus, Team et Enterprise. La société annonce également qu’elle prévoit de rendre disponible le modèle CUA via son API dans les semaines à venir, permettant aux développeurs de créer leurs propres agents capables d’interagir avec des interfaces graphiques.