vers une formation en IA respectueuse du droit d’auteur

vers une formation en IA respectueuse du droit d’auteur
Descriptive text here

En 2023, dans une réponse à la Chambre des Lords du Royaume-Uni, OpenAI a affirmé qu’il était impossible de former de grands modèles d’IA sans utiliser de matériel protégé par le droit d’auteur. Y compris, par exemple, des articles journalistiques publiés en ligne, provoquant des réactions contrastées de la part des médias.

L’affirmation d’OpenAI serait contredite par deux annonces récentes, rapporte notamment le média spécialisé Wired. Récemment, l’organisation à but non lucratif Fairly Trained, lancée en janvier dernier, a annoncé avoir attribué sa certification à un LLM développé sans violation du droit d’auteur, un modèle appelé KLM3, développé par la société RegTech 273 Ventures. « L’initiative Fairly Trained vise à clarifier quelles entreprises adoptent une approche en matière de formation [de modèles d’intelligence artificielle, ndlr] basée davantage sur le consentement et traite donc les créateurs de manière plus équitable », peut-on lire sur le site Internet de l’initiative.

Dans l’annonce de l’introduction de KLM3, 273 Ventures explique que son modèle juridique spécialisé provient de son Kelvin Legal DataPack, un ensemble de données propriétaires qui contient désormais plus de deux billions de tokens de textes juridiques, financiers et juridiques. domaine général. Selon la société basée à Chicago, son LLM serait plus performant que les modèles Llama ou GPT-2 sur des questions juridiques telles que la rédaction de contrats et l’assurance qualité réglementaire. Wired souligne que même si l’ensemble des données est limité, les performances obtenues proviendraient du soin avec lequel les données d’entraînement ont été compilées. “Disposer de données propres et de haute qualité peut aider à rationaliser le modèle”, a déclaré Jillian Bommarito, co-fondatrice de 273 Ventures, au média spécialisé.

Le Corpus Commun, porté par la start-up française Pleias

Une autre initiative, plus proche de notre région, a également travaillé à la conception d’un ensemble de données de formation pour le LLM qui ne viole pas le droit d’auteur. La start-up française Pleias a publié le Common Corpus, disponible via HuggingFace. Sur le blog de cette plateforme, le chercheur Pierre-Carl Langlais, l’un des co-fondateurs de Pleias, explique que le Common Corpus a été développé des organismes engagés dans une approche scientifique ouverte de l’IA (HuggingFace, Occiglot, Eleuther, Nomic AI). Selon lui, il s’agit du plus grand ensemble de données du domaine public publié pour la formation LLM, comprenant 500 milliards de mots. Soutenue par Lang:IA, start-up étatique soutenue par le ministère de la Culture et la Direction du Numérique, l’initiative vise explicitement à « montrer qu’il est possible de former de grands modèles de langage sur des contenus entièrement ouverts et reproductibles, sans utiliser de contenus protégés par le droit d’auteur.

Le Common Corpus contient 180 milliards de mots en anglais, mais aussi en français (110 milliards), en allemand (30 milliards), en espagnol, en néerlandais et même en italien. Il s’appuie sur des publications archivées numériquement suffisamment anciennes (plus de 70 ans) pour être aujourd’hui libres de droits. Comme le suggère non sans humour l’article de Wired (paywall), ce type de données ne permettra pas de baser un modèle d’IA sur l’actualité, en revanche, il devrait permettre de créer un LLM capable d’écrire un pastiche de Proust digne de ce nom…

 
For Latest Updates Follow us on Google News
 

NEXT Combien de temps reste-t-il pour se procurer le dernier Google Pixel 8 Pro à moins de 800 euros ? – .