Les entreprises d’IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti tout Internet ? Un rapport met en garde contre une potentielle pénurie de données

Un récent rapport sur les développements dans le domaine de l’IA met en garde contre un problème potentiel : Internet pourrait s’avérer trop petit pour répondre aux besoins des entreprises en données pour les modèles de formation. Le rapport suggère qu’une pénurie de données se profile, avec des conséquences dévastatrices pour les entreprises et un ralentissement de l’innovation. Mais cette préoccupation n’est pas partagée par tout le monde. Certains affirment qu’il reste de vastes pans d’Internet encore peu exploités ou inexplorés, notamment la vidéo et les données synthétiques. La disponibilité des données reste une préoccupation majeure pour le secteur.

L’intelligence artificielle est gourmande en données. Tous les aspects de l’IA – modèles d’apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives – nécessitent de vastes ensembles de données. Plus les données sont diversifiées et complètes, plus l’IA est efficace. C’est pourquoi les données sont souvent considérées comme le « carburant d’entraînement » de l’IA. Les avancées réalisées dans le domaine de l’IA ces dernières années ont été rendues possibles grâce aux données récoltées ici et là sur Internet. Mais que se passerait-il si ce précieux bien devait échouer à l’avenir ?

Selon un récent rapport du Wall Street Journal (WSJ), le problème pourrait survenir bien plus tôt qu’on ne le pense. La demande de données augmente, mettant à rude épreuve le réservoir de données publiques de qualité disponibles en ligne. Parallèlement, certains propriétaires de banques de données bloquent l’accès à leurs ressources aux entreprises spécialisées dans l’IA. Le rapport explore la manière dont les entreprises d’IA commencent à remédier au manque potentiel de données sur lesquelles former leurs prochains grands modèles linguistiques.

Premièrement, seule une partie des données en ligne est généralement adaptée à l’apprentissage de l’IA. La plupart des informations publiques sur le Web contiennent des fragments de phrases et d’autres défauts textuels qui peuvent empêcher l’IA de produire des réponses acceptables. Ensuite, les principaux médias, plateformes de médias sociaux et autres sources d’information ont restreint l’accès à leur contenu en raison de préoccupations concernant les droits d’auteur, la confidentialité et une rémunération équitable. . Enfin, les individus sont très réticents à partager leurs données privées.

Maintenant qu’Internet devient trop petit, certaines entreprises recherchent d’autres sources de formation sur les données, avec des options telles que des transcriptions vidéo accessibles au public et même des données synthétiques générées à partir de moteurs de jeux 3D ou de robots de laboratoire. D’autres entreprises explorent la possibilité d’utiliser les données générées par l’IA elle-même. Cependant, utiliser les données générées par l’IA pour entraîner d’autres modèles d’IA est un problème en soi : les modèles sont plus susceptibles d’halluciner. Cette approche pourrait à terme éloigner l’IA de la réalité.

En d’autres termes, les experts en IA affirment qu’une très forte dépendance à l’égard des données générées par l’IA conduit à ce qu’ils appellent une « consanguinité numérique ». Cela pourrait finalement conduire à l’effondrement du modèle d’IA sur lui-même. Un groupe de chercheurs du Royaume-Uni et du Canada a étudié la question. Dans le rapport d’étude, les chercheurs expliquent : « Nous constatons que l’utilisation de contenu généré par des modèles d’IA dans la formation entraîne des défauts irréversibles dans les modèles résultants. » De plus, Ilya Shumailov, l’un des principaux auteurs de cette étude, a ajouté :

Au fil du temps, les erreurs dans les données générées s’accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris de constater à quelle vitesse l’effondrement des modèles se produit : les modèles peuvent rapidement oublier une grande partie des données originales à partir desquelles ils ont appris. Shumailov affirme que lorsqu’un modèle d’IA est exposé à davantage de données générées par l’IA, ses performances se dégradent. Cette approche ne semble donc pas être la solution idéale face au manque de données.

Des startups comme Dataology, fondée par Ari Morcos, ancien chercheur de Meta et Google DeepMind, explorent des méthodes pour former des modèles expansifs avec moins de données et de ressources. Mais la plupart des grands acteurs s’appuient sur des approches non conventionnelles et controversées en matière de formation de données. Ainsi, OpenAI envisagerait de former GPT-5 à l’aide de transcriptions de vidéos YouTube accessibles au public. Le laboratoire d’IA est déjà critiqué pour avoir utilisé de telles vidéos pour entraîner Sora et pourrait faire l’objet de poursuites judiciaires de la part des créateurs de ces vidéos.

OpenAI et Anthropic prévoient de résoudre ce problème en développant des données synthétiques de meilleure qualité, même si les spécificités de leurs méthodologies ne sont pas encore claires. Le mois dernier, lors de la présentation de son grand modèle de langage Claude 3, Anthropic a admis que le modèle avait été formé sur des données que l’entreprise génère en interne. De plus, Jared Kaplan, scientifique en chef d’Anthropic, a déclaré qu’il existe également de bons cas d’utilisation des données synthétiques. Pour le moment, Claude 3 affiche les meilleures performances sur les benchmarks d’évaluation des modèles d’IA.

Selon le rapport du WSJ, OpenAI a également envisagé de créer un marché de données où les fournisseurs peuvent être payés pour fournir un contenu de qualité pour la formation des modèles d’IA. Google envisagerait une méthode similaire, même si les chercheurs n’ont pas encore développé de système pour l’appliquer correctement. Malgré les prédictions selon lesquelles l’IA pourrait manquer de données d’entraînement utilisables dans les années à venir, certains critiques ont déclaré que des avancées significatives pourraient atténuer ces craintes. La nature même de ces avancées reste encore floue.

Des inquiétudes concernant la rareté des données surviennent lorsque les utilisateurs se plaignent de la qualité des chatbots IA. Certains utilisateurs de GPT-4 ont signalé que le modèle avait de plus en plus de difficultés à suivre correctement les instructions et à répondre aux requêtes. Google a suspendu la fonctionnalité de génération d’images IA sur son modèle Gemini après que des utilisateurs se soient plaints du fait qu’elle produisait des images historiquement inexactes des présidents américains. De plus, les modèles d’IA sont généralement enclins à halluciner de fausses informations qu’ils croient exactes.

Et toi ?

Quelle est votre opinion sur le sujet ?

Que pensez-vous d’une éventuelle pénurie de données pour la formation en IA ?

Les entreprises d’IA ont-elles réellement su exploiter toutes les données utilisables sur Internet ?

Ces craintes sont-elles justifiées ? Comment les entreprises peuvent-elles éviter une pénurie de données à l’avenir ?

L’approche consistant à entraîner l’IA sur plus de données pour plus de performances a-t-elle atteint ses limites ?

Voir aussi

La presse écrite veut être rémunérée pour les articles utilisés pour alimenter l’outil d’IA ChatGPT, elle réclame une part de marché qui devrait atteindre 1 300 millions de dollars d’ici 2032.

OpenAI justifie pourquoi les données collectées pour la formation des modèles d’IA constituent un usage loyal et non une contrefaçon

Les chercheurs mettent en garde contre un « effondrement du modèle » lorsque l’IA s’entraîne sur du contenu généré par l’IA, affirmant que cela pourrait à terme éloigner l’IA de la réalité.

For Latest Updates Follow us on Google News

Related posts