OpenAI obtient des résultats comparables à ceux d’un humain sur un test évaluant « l’intelligence générale » – décryptage

Tuesday 24th December 2024 12:16 PM

Un nouveau modèle d’intelligence artificielle (IA) vient d’obtenir des résultats semblables à ceux des humains dans un test conçu pour mesurer « l’intelligence générale » – des résultats bien meilleurs que les IA précédentes. Que savons-nous exactement de ces progrès et qu’est-ce que cela signifie ?

Le 20 décembre 2024, le système o3 d’OpenAI a obtenu un score de 85 % au test de référence ARC-AGI, ce qui est nettement supérieur au meilleur résultat de l’IA précédente (55 %) et équivalent aux résultats humains moyens. o3 a également obtenu de bons résultats à un test de mathématiques très difficile.

Créer une intelligence artificielle « générale » est l’objectif affiché de tous les grands laboratoires de recherche en IA. L’annonce récente d’OpenAI semble indiquer que l’entreprise vient de réaliser un exploit en ce sens. (ndlt : L’abréviation française de « intelligence générale artificielle » est « IAG » mais cet acronyme est parfois utilisé pour parler de l’intelligence artificielle générative, qui est une famille particulière de systèmes d’intelligence artificielle, exploitant notamment le deep learning, et dont ChatGPT est le le plus membre des médias.)

Même si un certain scepticisme est de mise, de nombreux chercheurs et développeurs en IA ont le sentiment que les lignes bougent : la possibilité d’une intelligence artificielle générale semble plus tangible, plus actuelle qu’ils ne le pensaient. jusqu’à présent. Et ça ? Essayons de décrypter cette annonce.

Généralisation et intelligence artificielle

Pour comprendre ce que signifie le résultat obtenu par o3 d’OpenAI, nous devons examiner la nature du test ARC-AGI que o3 a réussi.

Il s’agit d’un test évaluant « l’efficacité d’un échantillon » d’un système d’IA (ndlt : parfois traduit par « efficacité des données »), c’est-à-dire sa capacité à s’adapter à une nouvelle situation, ou, en termes plus techniques, la capacité d’un modèle de machine learning à obtenir de bonnes performances avec un apprentissage basé sur peu de données.

En effet, la formation de ces modèles repose normalement sur de très grands ensembles de données, ce qui rend leur formation coûteuse. Un système d’IA comme ChatGPT (GPT-4) n’est pas très « efficace en matière de données » : il a été formé sur des millions d’exemples de textes humains, à partir desquels il a dérivé des règles probabilistes qui dictent les séquences de mots les plus probables. Cette méthode est efficace pour générer des textes généraux ou d’autres tâches « courantes » ; mais dans le cas de tâches peu courantes ou plus spécialisées, le système est moins efficace car il dispose de peu de données pour chacune de ces tâches.

Les systèmes d’IA comme ChatGPT sont très efficaces pour les tâches générales, comme les recettes de cuisine, mais ne conviennent pas aux situations spécialisées en raison du manque de données pour les entraîner suffisamment.
Bianca De Marchi/AAP

Tant que les systèmes d’IA ne pourront pas apprendre d’un petit nombre d’exemples (à partir d’un petit ensemble de données) – c’est-à-dire démontrer une certaine « efficacité des données » – ils ne pourront pas s’adapter à des situations plus rares, ils ne seront utilisés que pour des tâches très répétitives. tâches et celles pour lesquelles des échecs occasionnels sont tolérables.

La capacité à résoudre avec précision des problèmes inconnus ou nouveaux sur la base de peu de données est appelée « capacité de généralisation ». Elle est considérée comme un élément nécessaire, voire fondamental, de l’intelligence.

Grilles et motifs

C’est pourquoi le test de référence ARC-AGI, qui évalue l’intelligence « générale », utilise des problèmes de petite grille comme celui présenté ci-dessous. A partir d’un nombre très limité d’exemples, la personne ou l’IA testée doit trouver le modèle qui transforme la grille de gauche en grille de droite. C’est « l’efficacité des données » qui est ici évaluée.

Un exemple de tâche du test de référence ARC-AGI.
Prix ARC

Chaque exercice commence par fournir trois exemples, dont il faut extraire des règles, qui « généralisent » les trois exemples… et permettent de résoudre le quatrième.

Cela ressemble beaucoup aux tests de QI.

Trouver les règles nécessaires et suffisantes pour s’adapter

Nous ne savons pas exactement comment OpenAI a fait cela, mais les résultats des tests eux-mêmes suggèrent que le modèle o3 est très adaptable : à partir de quelques exemples seulement, il a trouvé des règles généralisables qui lui ont permis de résoudre les exercices.

Pour aborder ce type d’exercice, il faut trouver les règles nécessaires et suffisantes pour résoudre l’exercice, mais ne pas s’imposer des règles supplémentaires, qui seraient à la fois inutiles et contraignantes. Nous pouvons démontrer mathématiquement que ces règles minimales sont la clé pour maximiser la capacité d’adaptation à de nouvelles situations.

Qu’entendons-nous par « règles minimales » ? La définition technique est complexe, mais les règles minimales sont généralement celles qui peuvent être décrites dans des énoncés plus simples.

Dans l’exemple ci-dessus, la règle pourrait être exprimée comme suit : “Toute forme avec une ligne saillante se déplacera vers la fin de cette ligne et couvrira toutes les autres formes avec lesquelles elle chevauche dans sa nouvelle position.”

Vous recherchez des chaînes de pensée ?

Bien que nous ne sachions pas encore comment OpenAI y est parvenu, il semble peu probable que les ingénieurs aient délibérément optimisé le système o3 pour trouver des règles minimales – mais o3 a dû trouver ces règles.

Nous savons qu’OpenAI a commencé avec sa version générique du modèle o3 (qui diffère de la plupart des autres grands modèles de langage car il peut passer plus de temps à « réfléchir » à des questions difficiles), puis l’a entraîné spécifiquement pour passer le test ARC-AGI.

Le chercheur français en IA François Chollet, qui a conçu le test de référence (ndlr : et qui travaillait chez Google jusqu’à récemment), estime que o3 recherche différentes « chaînes de pensée » décrivant les étapes à suivre pour résoudre la tâche. (NDLR : Une « chaîne de pensée » est une stratégie exploitée dans l’IA, qui imite une stratégie humaine consistant à décomposer un problème complexe en petites unités plus simples, menant étape par étape à une solution globale.)

o3 choisirait alors la « meilleure » chaîne de pensée en fonction d’une règle définie de manière relativement pragmatique et vague, dans une approche « heuristique ».

Cette stratégie ne serait pas très différente de celle utilisée par le système AlphaGo de Google pour rechercher différentes séquences possibles de mouvements capables de battre le champion du monde de go en 2016.

En 2016, le système AlphaGo AI a battu le champion du monde de Go Lee Sedol.
Lee Jin-man/AP

On peut considérer ces chaînes de pensée comme des programmes adaptés aux exemples et permettant de les résoudre. Bien entendu, si o3 exploite effectivement une méthode similaire à celle utilisée dans AlphaGo, il était nécessaire de fournir à o3 une heuristique, ou règle douce, pour lui permettre de déterminer quel programme était le meilleur. Parce que des milliers de programmes différents, tous aussi valables les uns que les autres, pourraient être générés pour tenter de résoudre les trois exemples. On pourrait imaginer une heuristique qui « sélectionne le programme minimal » ou qui « sélectionne le programme le plus simple ».

Cependant, s’il s’agit d’un mécanisme de type AlphaGo, il suffit de demander à une IA de créer une heuristique. C’est ce qui s’est passé pour AlphaGo : Google a formé un modèle pour évaluer différentes séquences de mouvements comme étant meilleures ou pires que d’autres.

Ce que nous ne savons toujours pas

La question qui se pose donc est la suivante : sommes-nous vraiment plus proches de l’intelligence artificielle générale ? Si o3 fonctionne comme décrit ci-dessus, le modèle sous-jacent ne fonctionnera peut-être pas beaucoup mieux que les modèles précédents.

Les concepts que le modèle apprend à partir de données textuelles (ou plus généralement du langage humain) ne sont peut-être pas plus généralisables qu’auparavant. Au lieu de cela, nous pourrions simplement être en présence d’une « chaîne de pensée » plus généralisable, découverte grâce aux étapes supplémentaires de formation d’une heuristique spécialisée pour le test en question aujourd’hui.

On y verra plus clair, comme toujours, avec plus de recul et d’expérience autour de o3.

En effet, on ne sait presque rien de ce système : OpenAI a fait des présentations médiatiques assez limitées, et les premiers tests ont été réservés à une poignée de chercheurs, laboratoires et institutions spécialisés dans la sécurité de l’IA.

Évaluer le véritable potentiel d’o3 nécessitera un travail approfondi, notamment en déterminant la fréquence à laquelle il échoue et réussit.

Ce n’est que lorsque o3 sera réellement rendu public que nous saurons s’il est aussi adaptable qu’un humain moyen.

Si tel est le cas, cela pourrait avoir un impact économique énorme et révolutionnaire et ouvrir la voie à une nouvelle ère d’intelligence artificielle capable de s’auto-améliorer. Nous aurons besoin de nouveaux critères pour évaluer l’intelligence artificielle générale elle-même et d’une réflexion sérieuse sur la manière dont elle devrait être gouvernée.

Sinon, o3 et son score au test ARC-AGI resteront un résultat impressionnant, mais notre vie quotidienne restera sensiblement la même.

For Latest Updates Follow us on Google News