o3, le dernier modèle d’OpenAI avec des capacités de raisonnement avancées

Le premier des « 12 jours d’OpenAI » a été marqué par l’annonce de ChatGPT Pro et du modèle OpenAI o1, précédemment en avant-première. Le 20 décembre, la start-up clôturait la série en beauté en dévoilant la famille o3, encore en phase de tests, dotée de capacités de raisonnement nettement améliorées.

OpenAi o3 est la version améliorée de son prédécesseur o1. O2 étant le nom du plus grand opérateur de réseau mobile du Royaume-Uni, OpenAI a préféré ignorer o2 pour éviter tout conflit.

Les capacités de raisonnement avancées d’OpenAI o1 et o3 sont basées sur la chaîne de pensée et l’apprentissage par renforcement (RL). La pensée en chaîne est un processus par lequel l’IA décompose un problème complexe en sous-problèmes plus simples avant de proposer une solution. Grâce à l’apprentissage par renforcement, les modèles perfectionnent cette chaîne de pensée et affinent leurs stratégies. Ils apprennent à identifier et à corriger leurs erreurs, à décomposer les étapes complexes en étapes plus simples et à essayer une approche différente lorsque l’approche actuelle ne fonctionne pas.

La capacité à décomposer un problème en étapes et à tenter de juger de manière critique les réponses fournies afin de simuler la pensée humaine est particulièrement utile dans les domaines nécessitant un raisonnement long et nuancé :

Mathématiques complexes : Résolution de problèmes en plusieurs étapes, où un simple calcul ou une erreur logique en une étape peut compromettre le résultat final ;
Programmation : Analyse des erreurs dans un code et développement d’une solution optimale après avoir considéré plusieurs options ;
Sciences : Compréhension et application de théories scientifiques complexes pour résoudre des questions multiformes.

La famille OpenAI o3

La nouvelle famille comprend deux modèles : o3 et o3-mini, une version plus rapide et plus économique, offrant des capacités similaires à une fraction du coût et de la latence du modèle o1-mini qui, selon OpenAI, excelle en particulier dans les STEM. mathématiques et codage.

performances o3

Sur le benchmark « Abstract and Reasoning Corpus for Artificial General Intelligence » (ARC-AGI) développé par le créateur de Keras, la bibliothèque open source de deep learning, François Chollet, afin de mesurer l’efficacité de l’acquisition de compétences par l’IA sur des tâches inconnues, o3 a obtenu les meilleurs scores : il a non seulement triplé les performances de o1 avec un score de 75,7 % sur une évaluation semi-privée où les ressources informatiques sont limitées, mais a également atteint celle de 87,5 % sur le paramètre de calcul élevé.

François Chollet souligne cependant que o3 pourrait voir son score potentiellement réduit à moins de 30% lors du prochain benchmark ARC-AGI-2, prévu pour 2025, même à calcul élevé (alors qu’un humain intelligent serait encore capable de marquer plus 95% sans formation).

Sur d’autres benchmarks, tels que GPQA Diamond en mathématiques, Frontier Math Benchmark d’EpochAI ou Codeforces, il a également démontré des performances impressionnantes.

Des modèles plus sûrs

OpenAI affirme avoir développé une nouvelle technique de sécurité pour ses modèles « o » appelée « alignement délibératif » qui utilise les capacités de raisonnement des modèles pour mieux identifier les invites sûres et dangereuses, améliorant ainsi leurs performances de sécurité.

Vers l’IAG ?

Si le modèle rapproche un peu OpenAI de l’AGI, il peine encore à résoudre des tâches simples. Il est par ailleurs coûteux, nécessitant des ressources de calcul importantes pour atteindre ses performances optimales : environ 20 dollars par tâche pour une faible puissance de calcul, plusieurs milliers par tâche pour des configurations de calcul élevées, ce qui peut gêner son déploiement à grande échelle.

OpenAI a ouvert un accès anticipé aux modèles o3 et o3-mini aux chercheurs en sécurité afin de tester les modèles avant leur lancement public, prévu fin janvier pour o3-mini et peu après pour o3.

For Latest Updates Follow us on Google News

La famille OpenAI o3

performances o3

Des modèles plus sûrs

Vers l’IAG ?

Related posts