Les systèmes d’intelligence artificielle sont capables d’écrire des lignes de code et de contrôler un ordinateur. Qu’est-ce qui les empêche de créer d’autres IA ? Leur manque de volonté propre et leur incapacité à s’adapter de manière dynamique. Explications.
Fin octobre 2024, Anthropic a dévoilé Computer-Use, un programme permettant à son modèle d’intelligence artificielle Claude de contrôler un ordinateur comme un humain. Que se passerait-il si une IA pouvait également accéder à des ressources financières pour acquérir des machines et des services supplémentaires ? Cette hypothèse, bien qu’exagérée, soulève une question fascinante. Une IA pourrait-elle vraiment devenir autonome et créer d’autres IA sans intervention humaine ?
Comme nous le verrons, de grandes entreprises comme OpenAI, Facebook ou Google utilisent déjà l’IA pour former des IA de plus en plus complexes, et ce n’est un secret pour personne, même pour les IA.
AIs train AIs
Pour comprendre comment cela est possible, nous devons revenir en arrière et expliquer ce qui a permis les progrès récents. Tout a commencé en 2017 lorsqu’une équipe de chercheurs de Google a publié un article scientifique : « L’attention est tout ce dont vous avez besoin ». Dans cette publication, les chercheurs ont présenté une nouvelle architecture neuronale appelée « Transformers » qui apprend à quels mots « prêter attention » afin de pouvoir générer le mot suivant. Cette architecture Transformers structure désormais tous les réseaux de neurones des IA modernes génératrices de texte.
L’apparition de Transformers a conduit OpenAI à lancer la première version de GPT pour générer du texte en 2018. Si les principes fondamentaux ont peu évolué depuis, l’ampleur et l’ambition des « grands modèles de langage » (ou grands modèles de langageLLM en anglais) ont explosé.
Ainsi, en mai 2020, l’arrivée du GPT-3 marque le début d’une catégorie d’IA capable de modéliser des langages humains à l’aide de gigantesques réseaux de neurones, qu’ils soient naturels comme le français ou formels comme le C++ en informatique. Notez que modéliser avec des statistiques ne signifie pas comprendre des processus cognitifs, et ces IA produisent toujours des réponses absurdes à des questions triviales.
Lire la suite : Un beau parleur comme une IA
Les modèles sont alors passés de 1,5 milliard de connexions pour GPT-2 à quelques centaines de milliards pour GPT-3 et ses successeurs, ce qui correspond à passer du cerveau d’une abeille à celui d’un hamster en termes de nombre de synapses. Cependant, leur croissance s’est ralentie ces dernières années et ne constitue plus le principal moteur de progrès.
Au lieu de cela, nous devons examiner les changements de méthodologie qui ont lieu avant et après la formation du modèle.
Des données plus nombreuses et de meilleure qualité
La formation LLM s’appuie sur des textes servant de référence pour leur apprendre à prédire le mot suivant dans une phrase. Pour améliorer cet apprentissage, nous utilisons de plus en plus de données : GPT-2 a été entraîné sur 30 milliards de mots (organisés en phrases, paragraphes et textes), contre onze mille milliards pour LLaMa-3.
Cependant, tous les textes, issus principalement du web, n’ont pas la même qualité. Les ingénieurs utilisent donc des algorithmes de nettoyage et, plus récemment, des LLM eux-mêmes pour améliorer, reformuler ou générer ces données (par exemple pour LLaMa-3 ou Qwen 2.5).
Ainsi, si les IA participent déjà à la formation d’autres IA, cette pratique reste limitée par la lenteur des LLM. GPT-4 prendrait environ 17 000 ans pour générer à lui seul onze mille milliards de mots (soit environ 500 téraoctets de données).
Une fois les données collectées, nettoyées et générées, vient la véritable phase d’apprentissage. Cette phase reste difficile à mettre en œuvre et nécessite un nombre colossal de ressources informatiques, mais peu de choses ont changé depuis la première version de GPT en 2018.
Superviser l’apprentissage d’une IA en lui fournissant des retours constructifs
D’autre part, les chercheurs se sont penchés sur la question de l’amélioration d’un LLM après la formation. En effet, l’un des soucis d’un LLM brut est qu’il est imprévisible et ne correspond pas forcément aux besoins humains du point de vue des compétences (recrutement, diagnostics médicaux, mathématiques) ou du comportement éthique et social (chatbot politiquement correct, sans discrimination). , et en respectant les lois).
L’idée est donc venue de calibrer les LLM pour qu’ils soient mieux conformes aux préférences de ses utilisateurs. Pour ce faire, la technique d’apprentissage par renforcement basée sur le feedback humain demande aux humains leur avis sur les textes générés et forme les LLM pour plaire aux humains.
Cette démarche a permis un grand bond en avant en 2022 avec InstructGPT, précurseur de ChatGPT. Cependant, cela coûte extrêmement cher car cela nécessite beaucoup de travail manuel. LLaMa-3 nécessitait que dix millions de préférences soient annotées par les humains. Ces travailleurs sont souvent sous-payés et dans des situations précaires.
Lire la suite : « Digital condamnés » : Comment une décision de justice au Kenya fragilise la sous-traitance des multinationales du web
C’est pourquoi les chercheurs cherchent à se passer le plus possible de l’aide humaine.
Quand les IA entraînent les IA
En juillet 2024, une équipe de scientifiques Microsoft lance AgentInstruct, une nouvelle méthode pour enseigner de nouvelles compétences et comportements aux LLM.
Cette méthode est centrée sur la création d’« agents » spécialisés dans de nombreux domaines (mathématiques, codage, médecine) servant d’enseignants au système appris. Dans ce cas, un agent est lui-même un LLM, mais complété par des données et des outils externes supplémentaires, tels qu’une calculatrice, Internet ou un compilateur de code informatique. Mieux équipé et spécialisé qu’un LLM seul, il excelle dans son domaine de prédilection. AgentInstruct utilise un bataillon d’agents qui enseigneront leurs connaissances à un LLM.
Résultat : le LLM progresse sans accès à aucune autre ressource, contrairement aux agents. Par exemple, un agent équipé d’une calculatrice peut améliorer le calcul mental d’un LLM.
De la même manière, grâce au programme Computer-Use, Claude pourrait exploiter de nombreux outils informatiques pour collecter, nettoyer et organiser ses propres données, ou encore entraîner de manière plus autonome des modèles d’IA en mobilisant des agents spécialisés. Demandez-lui comment il pourrait s’améliorer et c’est à peu près ce qu’il dira (ça, ou recruter une armée d’humains pour annoter les données).
Mais alors, comment expliquer qu’elle ne soit pas encore capable de se reproduire et de s’améliorer ?
Avant une IA capable de se reproduire, un long parcours technique et des questions éthiques
Cette capacité à créer des agents spécialisés soulève des questions cruciales. Qui contrôle les agents ? Si les IA participent à leur propre amélioration, comment pouvons-nous garantir que leur évolution reste éthique et alignée sur les intérêts humains ? Le rôle des développeurs et des régulateurs sera central pour éviter d’éventuels abus.
Nous n’en sommes pas encore là pour plusieurs raisons. Les LLM actuels, bien qu’efficaces, sont limités : ils peinent à planifier des projets complexes, nécessitent des ajustements constants au cours de leur formation et dépendent encore largement de l’intervention humaine, notamment dans centres de donnéespour gérer et entretenir les machines physiques.
De plus, sans leur propre volonté, ils ne peuvent pas fixer d’objectifs autonomes, indépendants des préférences humaines instruites. Sam Altman, PDG d’OpenAI, évoque la possible émergence d’une intelligence artificielle générale dès 2025, mais cette prédiction reste controversée, car elle nécessiterait des avancées techniques et une meilleure compréhension des mécanismes cognitifs humains.
Le succès des LLM repose sur quatre piliers : l’augmentation de leur taille, les innovations architecturales, l’amélioration des techniques de calibration et le perfectionnement des données. Les avancées récentes, notamment l’automatisation via des agents spécialisés, montrent déjà que les IA jouent un rôle croissant dans la création d’autres IA. Cependant, sans volonté propre ni véritable autonomie, l’idée d’une IA capable de se multiplier ou de s’améliorer de manière indépendante relève encore de la science-fiction.
En effet, une révolution de cette ampleur nécessiterait un bouleversement des paradigmes actuels, avec des architectures neuronales capables d’une intelligence véritablement adaptative et généralisée. Actuellement, une fois la phase d’apprentissage terminée, les réseaux de neurones LLM se figent : ils ne peuvent plus évoluer ni acquérir de nouvelles compétences de manière autonome, même après des millions d’interactions avec des utilisateurs humains. Contrairement aux humains, qui apprennent au contact des autres ou par réflexion interne, les LLM ne disposent pas de mécanismes pour adapter dynamiquement leur structure interne ou construire des représentations profondes et révisables du monde extérieur. Yann LeCun, prix Turing 2019, imagine une nouvelle génération d’IA dotée de modèles internes, capables de simuler des hypothèses et de planifier comme le ferait un être humain, intégrant des observations pour les comparer à des attentes préexistantes. Cependant, la mise en œuvre pratique de cette vision reste un défi scientifique.
Peut-être qu’une avancée aussi décisive que celle de Transformers en 2017 interviendra dans les années à venir. Mais pour l’instant, la vision d’intelligences artificielles totalement autonomes, à l’instar des sondes de Von Neumann colonisant l’univers, reste hypothétique.
Cependant, ce scénario nous invite aujourd’hui à réfléchir aux enjeux éthiques et aux garde-fous législatifs et techniques nécessaires pour encadrer l’évolution de ces technologies.
Related News :