Ce serait un problème aux conséquences bien plus importantes pour le développement de ces intelligences artificielles génératives comme ChatGPT : car pour les « entraîner », on a pu les nourrir jusqu’à présent avec des quantités astronomiques d’informations disponibles sur Internet, et des données en continu. croissance. C’est grâce à elles que ChatGPT et d’autres applications du genre peuvent produire des textes ou des images à une vitesse phénoménale : ces IA génératives ont la capacité de « prédire » une réponse à une question, une séquence de mots ou un pixel, à partir d’une masse de données. données que nous mettons à leur disposition.
Mais même Internet n’est pas infini : et cela fait deux ans que les experts prédisaient que nous atteindrions assez rapidement ses limites. Le « contenu de haute qualité » utilisable pour alimenter ces applications sera rattrapé en 2026, selon une évaluation synthétique réalisée en octobre 2022 par un groupe de chercheurs du cabinet EpochAI. Le même groupe a publié une estimation en 2024 plaçant cette limite en 2028, mais la différence réside dans la façon dont nous définissons « contenu de haute qualité ».
Selon leur dernière estimation, la taille des bases de données utilisées pour entraîner l’IA augmente de 100 % par an, tandis que la taille du contenu « utilisable » sur Internet n’augmente que de 10 % par an – d’où un « goulot d’étranglement ». « étranglement imminent ».
L’une des solutions les plus troublantes serait de continuer à « former » des IA génératives, mais avec des contenus conçus… par d’autres IA génératives. Cependant, si l’on manque déjà de solutions pour limiter la production de fausses informations par ces IA, on entre dans un territoire encore plus flou si les IA doivent se nourrir de contenus créés par les IA.
Redevance
Nous avons peut-être même déjà commencé à entrer dans ce goulot d’étranglement, commentait en décembre le journal Naturele chercheur Shayne Longpre qui, au Massachusetts Institute of Technology, dirige un projet visant à évaluer la qualité des données utilisées pour alimenter l’IA.
Dans le même temps, certains propriétaires de ces données disponibles sur Internet – comme les éditeurs de journaux – ont commencé à exiger que les sociétés d’IA leur versent des redevances pour l’utilisation de leurs contenus – estimant que ces contenus sont censés rapporter des revenus. croissance exponentielle pour les entreprises informatiques. LE New York Times a été le premier, en décembre 2023, à poursuivre en justice la société OpenAI et son partenaire Microsoft ; en avril 2024, huit journaux américains ont intenté une action en justice commune.
Les auteurs de l’évaluation 2022 ont également pris soin de distinguer les contenus « de qualité », qui comprennent les livres, les rapports journalistiques, les recherches scientifiques et les codes informatiques – ces contenus ayant en commun d’être économiquement coûteux à produire, contrairement aux textes générés par l’IA.
Il existe également des productions de moindre qualité, allant des vidéos YouTube aux textes en tout genre circulant sur les forums Facebook, en passant par les messages WhatsApp, etc. : la quantité totale de cette autre partie de l’information est difficile à mesurer, mais les concepteurs d’une IA sur laquelle le public est censé compter sur des informations fiables, mais pourrait hésiter à se laisser submerger par un contenu de moindre qualité.