La nouvelle famille de modèles o3 a été présentée dans le cadre de la conférence « 12 Days of OpenAI » qui, comme son nom l’indique, a duré 12 jours. La compagnie a également attendu la toute fin de son marathon pour annoncer ce qu’elle gardait en réserve comme point culminant du salon. Pour OpenAI, l’annonce est d’autant plus importante qu’elle permet d’aborder deux problématiques actuelles : la fiabilité des réponses et la course à l’AGI.
D’ailleurs pourquoi o3 et pas o2 ? Selon The Information, OpenAI craignait un éventuel conflit avec l’opérateur O2 au Royaume-Uni. Selon TechCrunch, le PDG d’OpenAI lui-même, Sam Altman, l’a confirmé vendredi sans enthousiasme. On s’étonne quand même que le nom o1 ait pu être choisi sachant que o2 allait poser problème.
Qu’est-ce que o3 ?
La famille se compose actuellement de deux modèles, o3 et o3-mini. Ce dernier sera le premier à sortir. Il est attendu en janvier, tandis que le modèle o3 standard devrait arriver plus tard dans l’année, sans plus de détails pour l’instant.
On pourra être surpris de la proximité entre la sortie effective de o1 il y a quelques semaines (en même temps qu’une offre ChatGPT Pro à 200$ par mois) et la présentation de o3. Mais OpenAI avait beaucoup à dire sur son modèle, puisque o1 représentait un premier pas vers le « raisonnement » et les progrès étaient rapides, selon l’entreprise.
o3 est donc capable de se vérifier, dans une certaine mesure. Il utilise une technique appelée « alignement délibératif », sur lequel nous avons peu d’informations. Cela doit permettre au modèle d’éviter certains des écueils qui affectent habituellement les grands modèles de langage, notamment leur relative incapacité à garantir la fiabilité des informations.
Ces étapes de vérification entraînent une latence. Selon la requête, la réponse peut arriver avec un délai de quelques secondes à plusieurs minutes par rapport à un LLM classique. C’était déjà le cas avec o1, mais o3 intensifie cet aspect. En conséquence, le nouveau modèle doit être plus fiable dans des domaines tels que les mathématiques, la physique et plus généralement les sciences.
o3 fait donc une pause avant de répondre et prend le temps de réfléchir. Selon OpenAI, ce temps est consacré aux calculs sur des questions connexes, expliquant (en interne) l’élaboration de la réponse. La réponse proposée est alors un résumé de ce que o3 considère comme la réponse la plus précise.
Améliorations depuis o1
Annoncé il y a à peine trois mois, o1 était le premier modèle de raisonnement d’OpenAI. Sa formation s’était faite avec un apprentissage par renforcement (RL). o3 reprend cette idée, mais avec un renforcement bien plus développé, même si là encore OpenAI ne donne pas de chiffres précis. ” La force du modèle résultant est très, très impressionnante », a déclaré sur X Nat McAleese, chercheur à OpenAI.
Par rapport à o1, o3 permet également d’ajuster le temps de raisonnement, et donc la vérification des réponses. Trois crans sont disponibles : bas, moyen ou haut. Plus le niveau est élevé, plus les résultats sont précis et plus leur affichage est long. À l’inverse, on peut rogner sur la précision pour obtenir des réponses rapides. Mais attention, car même avec plus de précision, OpenAI se garde bien de dire que son modèle ne fait pas d’erreurs, simplement qu’il en fait moins que o1.
L’entreprise a tout de même donné une série de résultats pour comparer le nouveau modèle à l’ancien sur certains benchmarks :
- Évaluation Semi-Privée ARC-AGI : 75,7 %
- EpochAI Frontier Math : 25,2 % de problèmes résolus, contre 2 % pour les « autres modèles »
- SWE-Bench Verified : 71,7 points, contre 48,9 pour o1
- Codeforces : score Elo de 2 727
- AIME 2024 : 96,7%, contre 83,3% pour o1
- GPQA Diamant : 87,7 %, contre 78 % pour o1
« Une avancée significative »
Dans un tweet vendredi, François Chollet, créateur de Keras et ARC-AGI, a indiqué que o3″ représente une avancée significative dans l’adaptation de l’IA aux nouvelles tâches « . Il a déclaré que le score de 75,7 % était en mode de calcul faible, ce qui représente un coût de 20 $ par tâche de calcul. Au plus haut niveau, le score monte à 87,5%, mais le calcul représente alors « des milliers de dollars par tâche ».
ARC-AGI a été créé pour évaluer dans quelle mesure un système d’intelligence artificielle peut acquérir de nouvelles compétences en dehors des données sur lesquelles il a été formé.
Dans un billet dédié, l’association Prix ARC souligne l’étape importante que représente o3 et apporte quelques éléments de comparaison. Il a fallu quatre ans pour passer d’un score de 0 % avec GPT-3 en 2020 à 5 % avec GPT-4o. Le Prix ARC vise à être « une étoile polaire vers l’IAG », note-t-elle que les prochains tests devront prendre en compte l’O3.
La version 2025 du benchmark sera donc plus difficile. Elle ajoute que la performance d’o3 prouve « que l’architecture est essentielle », car GPT-4 n’aurait pas pu obtenir ces résultats en augmentant simplement la puissance. ” Il ne suffit pas d’évoluer comme nous l’avons fait de 2019 à 2023 », ajoute Prix ARC.
Et quelle est la prochaine étape ?
La présentation de o3 a eu lieu trois mois après celle de o1. Selon OpenAI, ce rythme devrait être préservé. La question est cependant de savoir si l’entreprise saura affiner son modèle afin de conserver la même marge de progrès.
Plus important encore, peut-on dire qu’o3 est une étape importante vers l’intelligence artificielle générale ? Ce n’est pas si évident. D’une part, les résultats et performances du modèle semblent clairement aller dans ce sens. En revanche, ce type de modèle représente-t-il forcément l’avenir ? Car si la précision fait un pas en avant, l’apprentissage par renforcement et l’inférence sont bien plus coûteux qu’avec des LLM plus traditionnels comme la série GPT.
Celles-ci ne sont pas forcément dépassées pour le moment. Même si les modèles O présentent l’avantage de la précision, GPT conserve l’avantage du coût et de la faible latence. Il est cependant difficile de tirer des généralités, car seul le modèle o1 est réellement disponible. Il faudra attendre janvier pour voir arriver o3-mini, et nous verrons alors les premiers « vrais » résultats, puisque seuls ceux d’OpenAI sont fournis pour le moment.
Rappelons enfin qu’OpenAI n’est pas seul sur le marché des modèles de « raisonnement ». Il y a moins de deux semaines, Google présentait son Gemini 2.0 Flash Thinking Experimental, testable via AI Studio. Quelques jours plus tard, une entreprise chinoise a fait de même avec un modèle baptisé DeepSeek-R1.
L’un des aspects les plus intéressants de cette nouvelle vague est qu’elle confirme le mur de complexité des LLM, dont nous avons discuté avec la data scientist Cécile Hannotte. L’ajout de couches de calcul et de GPU ne suffit pas, d’autres approches sont nécessaires. Les modèles de raisonnement en sont un, mais pas nécessairement un pas aussi important vers l’AGI que le dit OpenAI. L’évolution des performances devra donc être suivie de près.