Les IA ont un gros problème avec les données et les droits d’auteur : que se passe-t-il

Morten BlichfeldtAndersendirecteur de l’éditeur danois Praxisen scannant le Boutique GPT (la boutique virtuelle de OpenAI où sont disponibles des chatbots personnalisés par les utilisateurs et basés sur le même modèle que ChatGPT) a trouvé de nombreux bots ou Google Tag ce qu’ils étaient apparemment formé en utilisant illégalement du matériel protégé par le droit d’auteur. Blichfeldt Andersen a signalé l’affaire à OpenAI, qui a supprimé les robots violant les droits d’auteur (mais seulement après l’intervention des associations). Danske Forlag Et Alliance des droits), et n’exclut pas d’engager des poursuites judiciaires contre la société dirigée par Sam Altman.

L’événement que nous venons de rapporter brièvement nous aide à réfléchir sur un problème concret auquel sont déjà confrontées les entreprises impliquées dans le développement de modèles d’IA : la manque de données et d’informations qualité s’entraîner avec leurs propres modèles d’intelligence artificielle.

Quelle quantité et quelles données sont nécessaires pour entraîner l’intelligence artificielle

Pour bien comprendre l’ampleur de ce problème, nous devons prendre du recul et comprendre quelle quantité de données est nécessaire pour la formation en IA. Bien que l’on ne sache pas exactement comment OpenAI et la « compagnie qui chante » entraînent leurs modèles, certains experts du secteur ont fait des estimations qui pourraient être considérées comme plausibles et qui mettent clairement en évidence le concept de rareté des données. Parmi celles-ci figurent les analyses réalisées par Pablo Villalobos de laInstitut de recherche d’époque. Selon l’expert, pour former un grand modèle comme GPT-4 d’OpenAI aurait été utilisé quelque chose comme 12 000 milliards de jetons (un jeton correspondrait à un mot ou une partie de celui-ci).

Si le chiffre qui vient d’être évoqué vous semble énorme, vous changerez d’avis en apprenant que, selon les tendances actuelles de développement et les estimations faites par Villalobos, la prochaine génération du modèle OpenAI, GPT-5peut nécessiter entre 60 000 et 100 000 milliards de tokens, soit 10 000 à 20 000 milliards de plus que ce que peuvent fournir les ressources de qualité actuellement disponibles. En bref, il n’y aurait pas suffisamment de données pour satisfaire la « faim » de données du GPT-5.. Et pire encore : ce déficit est estimé sur la base du scénario le plus « optimiste » possible. Nous comprenons donc comment le problème de la rareté des données peut impacter le développement futur des grands modèles de langage (LLM).

En fait, il est probablement impossible d’avoir libre accès à tout le matériel de qualité actuellement disponible pour le « nourrir » aux algorithmes qui doivent être entraînés. En effet, l’accès à ces données est souvent compromis précisément à cause de Problème de droit d’auteur, comme ceux rapportés par Praxis, mais aussi par divers journaux. Un avant tout New York Timesqui a intenté une action en justice contre OpenAI en décembre de l’année dernière, affirmant que des millions de ses articles « ont été utilisés pour former des chatbots qui sont désormais en concurrence avec New York Times« .

Quelles sont les solutions techniques et juridiques possibles pour utiliser les données

Afin d’assurer un développement adéquat de l’IA, il est nécessaire de trouver solutions techniques et juridiques à la collecte et à l’utilisation de données pour former les prochaines générations de LLM.

Sur le façade techniquecertaines entreprises expérimentent l’utilisation de données synthétiques (c’est-à-dire généré ad hoc) générés à l’aide de modèles avancés d’intelligence artificielle, qui pourraient être utilisés pour remédier au manque de données de qualité. La génération de données synthétiques s’effectue à l’aide de deux modèles d’IA : conceptuellement, l’un est utilisé comme « créateur » de contenus (textuels et visuels) qui récupèrent des informations sur le web ; l’autre, cependant, évalue les contenus produits, définissant leur qualité. Sur le papier, la combinaison de deux modèles spécialisés dans deux phases différentes de travail de génération de données (contrôle et feedback) pourrait conduire à satisfaire la soif d’information des modèles à entraîner dans un temps relativement court.

Attention cependant : la génération de données synthétiques n’est pas la panacée à tous les maux, Les modèles d’IA peuvent introduire des erreurs et des biais dans les données générées, conduisant ainsi à la création de résultats incohérents ou absurdes (appelés dans le jargon charabia), ce qui provoquerait un phénomène appelé effondrement du modèle (littéralement « effondrement du modèle »).

C’est pourquoi il est nécessaire travaille également sur le plan juridique, par exemple en intervenant dans la définition de la notion de droit d’auteur, en introduisant de nouvelles protections et règles pour les créateurs de contenus, les utilisateurs mais aussi pour les entreprises impliquées dans le développement de l’IA. Certains d’entre eux – y compris OpenAI lui-même – étant donné le problème de la rareté d’informations de qualité avec lesquelles former leurs modèles, évaluent création de véritables marchés de donnéesoù la valeur des informations utilisées pour former les modèles peut être reconnue et récompensée.

For Latest Updates Follow us on Google News

Quelle quantité et quelles données sont nécessaires pour entraîner l’intelligence artificielle

Quelles sont les solutions techniques et juridiques possibles pour utiliser les données

Related posts