L’intelligence artificielle risque de manquer de données d’ici six ans

L’intelligence artificielle risque de manquer de données d’ici six ans – rts.ch

Un rapport de l’Université de Stanford souligne les limites auxquelles seront confrontés les modèles linguistiques d’intelligence artificielle. En cause : la baisse des données numériques disponibles et l’augmentation des coûts de formation.

L’appétit pour les modèles linguistiques d’intelligence artificielle générative est énorme. Chaque jour, ils ingèrent une multitude de données afin de s’entraîner. LE Rapport annuel de l’Université de Stanford sur l’intelligence artificielle révèle que ces modèles pourraient se retrouver à court de cette « nourriture numérique » dans les années à venir.

La quantité de données disponibles sur Internet augmente actuellement d’environ 7 % par an. La quantité de données sur lesquelles l’intelligence artificielle s’entraîne augmente de 200 % par an. Selon le rapport, les grands modèles linguistiques auront donc ingéré toutes les données disponibles en ligne d’ici six ans.

Les entreprises trouvent des subterfuges

Pour pallier ce problème, les chercheurs d’OpenAI ont créé un outil de reconnaissance vocale. Nommé Whisper, il est capable de transcrire l’audio des vidéos YouTube et de produire de nouveaux textes conversationnels. La maison mère de ChatGPT a ainsi volé, sans respecter les droits d’auteur, les données d’un million d’heures de vidéos pour alimenter et entraîner son modèle.

L’année dernière, Google a modifié ses conditions d’utilisation afin de pouvoir utiliser librement les documents Google Docs et les avis de restaurants accessibles au public sur Google Maps.

>> Écoutez le sujet du Forum sur les données personnelles :

Nos données personnelles pour entraîner l’intelligence artificielle / Forum / 2 min. / 5 septembre 2023

Chez Meta, qui possède Facebook et Instagram, les responsables ont envisagé l’année dernière d’acquérir la maison d’édition Simon & Schuster dans le but d’obtenir du contenu pour des œuvres de longue durée. Ces discussions ont été révélées par le New York Times qui s’est procuré des enregistrements de réunions internes. Ils ont notamment abordé la question de la collecte sur Internet de données protégées par le droit d’auteur, quitte à risquer des poursuites judiciaires.

Des frais de fonctionnement exorbitants

À ce manque de données à venir s’ajoute le rapport de l’université de Stanford qui cite l’explosion des coûts de formation des modèles linguistiques d’intelligence artificielle.

L’année dernière, les frais pour le modèle de langage GPT 4 d’OpenAI se sont élevés à plus de 70 millions de francs, contre 170 millions pour Gemini Ultra de Google. Ces coûts importants s’expliquent par la hausse des coûts des ressources telles que les données, l’ingénierie et les systèmes informatiques ces dernières années.

Une solution risquée

En cas de pénurie d’informations, les entreprises technologiques devront trouver de nouvelles sources de données. La tentation de former des modèles avec des résultats générés par l’IA elle-même est grande. Mais cette méthode est risquée et peu fiable, car les modèles ont tendance à halluciner et à mentir. Ces erreurs sont ensuite transmises, répétées et multipliées.

L’année dernière, des informaticiens ont montré comment un modèle de langage, publié par Meta en 2022, s’est dégradé après avoir été entraîné à plusieurs reprises sur des données créées par l’intelligence artificielle.

Miruna Coca-Cozma/msa

For Latest Updates Follow us on Google News