XALIMANEWS- Dans une interview diffusée sur sa plateforme X, Elon Musk a évoqué le problème de la pénurie de données pour entraîner l’intelligence artificielle. La solution résiderait dans les données synthétiques, ce qui n’est pas sans risque…
Toutes les connaissances de l’humanité ne suffisent plus à former l’intelligence artificielle. C’est ce qu’affirme Elon Musk lors d’une conversation avec Mark Penn, président-directeur général de Stagwell, diffusée en direct sur X (anciennement Twitter). Le problème du manque de données est l’une des principales faiblesses des grands modèles linguistiques actuels, qui fait l’objet de discussions depuis un certain temps.
« Nous avons désormais épuisé la somme cumulée des connaissances humaines… dans la formation de l’IA» a déclaré le milliardaire. Cela s’est produit l’année dernière. » La solution réside dans les données synthétiques selon de nombreux spécialistes, dont Elon Musk. Cela signifie que les IA devront être formées sur les données générées par l’IA et s’évaluer elles-mêmes.
Vers un effondrement des modèles d’IA provoqué par les données synthétiques ?
L’utilisation de données synthétiques n’a rien de nouveau. En plus de pallier le manque de données, cela réduit également le coût de la formation. La startup Writer affirme avoir pu baisser le coût de formation de son modèle Palmyra X 004 à 700 000 dollars, contre une facture de 4,6 millions de dollars si elle n’avait pas utilisé de données synthétiques. Microsoft a indiqué utiliser des données synthétiques pour son modèle ouvert Phi-4, tout comme Google avec son modèle Gemma, Anthropic avec Claude 3.5 Sonnet et Meta avec Llama.
L’un des problèmes évoqués par Musk est le risque d’hallucinations. Que se passe-t-il lorsqu’une IA est entraînée sur des données produites par une autre IA qui contiennent des erreurs ? L’IA dégénère, dans un phénomène appelé effondrement du modèle, ou effondrement du modèle. Le risque est une réduction de la créativité et une augmentation des préjugés, ce qui pourrait obliger les entreprises à repenser la façon dont les grands modèles linguistiques sont conçus.