une mine d’or pour les entreprises d’intelligence artificielle

une mine d’or pour les entreprises d’intelligence artificielle
une mine d’or pour les entreprises d’intelligence artificielle

À mesure que le recours aux technologies d’intelligence artificielle se généralise, un débat émerge quant à la légitimité de certaines pratiques. L’exploitation massive des sous-titres des films et séries pour entraîner ces IA pose des questions sur le respect des droits d’auteur. Dans ce contexte, plusieurs grandes entreprises technologiques sont pointées du doigt.

Utiliser des sous-titres pour entraîner des modèles de langage

Depuis plusieurs années, des géants comme Apple, Meta, Nvidia ou Salesforce utilisent des volumes considérables de données pour perfectionner leurs modèles linguistiques. Parmi ces données figurent les sous-titres d’une multitude de films et de séries télévisées. Selon différentes sources, ces répétitions de dialogues permettent aux modèles d’imiter la parole humaine de manière colossale, au-delà des textes académiques ou journalistiques.

Cette méthode repose notamment sur l’inclusion des sous-titres dans des bases de données telles que La pilehébergé sur OpenSubtitles.org. Cette plateforme propose plus de 53 000 films et 85 000 épisodes de séries, offrant une bibliothèque conséquente aux développeurs d’IA.

Les entreprises concernées et leur approche

Plusieurs entreprises ont été identifiées comme utilisant cette méthode. C’est notamment le cas deAnthropiquequi utilise ces sous-titres pour son concurrent direct ChatGPT, Claude. Meta et Apple font de même pour développer respectivement leurs familles de modèles LLM et OPT. D’autres acteurs comme Nvidia, Bloomberg ou EleutherAI exploitent également cette masse de données pour renforcer leurs capacités d’intelligence artificielle.

Toutes ces entreprises cherchent à construire des systèmes capables de générer des dialogues plus naturels et humains. En effet, « bien écrire » est une ressource rare dans le monde des données de formation en IA. Par conséquent, s’appuyer sur le dialogue écrit pour les sous-titres offre une fenêtre précieuse sur les nuances et les rythmes propres à la conversation parlée.

Un usage controversé et Source de conflits juridiques

Toutefois, cette exploitation n’est pas sans controverse. Plusieurs actions en justice ont été intentées contre les sociétés incriminées, accusées d’utiliser des œuvres protégées par le droit d’auteur sans autorisation. Scénaristes, auteurs et maisons d’édition dénoncent des violations de leurs droits. Le créateur de Breaking Bad, Vince Gilligan, a qualifié cette pratique de « plagiat extraordinairement complexe et énergivore » devant le US Copyright Office.

Pour leur défense, les entreprises affirment que la formation de systèmes d’IA sur des œuvres protégées par le droit d’auteur constitue un usage loyal, même si cette affirmation attend encore une validation juridique finale. Du point de vue du droit d’auteur, les tribunaux pourraient considérer les sous-titres comme des œuvres dérivées, bénéficiant ainsi de la même protection contre la copie et la distribution illégales.

Le rôle des sous-titres dans les performances de l’IA

Pourquoi ce choix particulier de sous-titres ? Parce qu’ils représentent une forme brute et essentielle de dialogue écrit. Contrairement aux manuels scolaires ou aux articles scientifiques, les sous-titres capturent avec précision le flux, le ton et la cadence des conversations humaines. Cela permet aux chatbots, qui s’appuient sur ces données, de produire un discours qui semble naturellement humain.

L’apport des sous-titres ne s’arrête pas là. Ces fragments de texte sont également utilisés pour moduler des réponses générées automatiquement dans différents contextes – télévision, cinéma et même éducatif. Ils aident les intelligences artificielles à enrichir leur répertoire linguistique, dépassant les grands classiques de la littérature pour représenter la diversité des interactions verbales actuelles.

La position des créateurs originaux

Malheureusement, cette utilisation des sous-titres pose un dilemme éthique et juridique. D’une part, les développeurs et les chercheurs bénéficient d’une richesse d’informations linguistiques gratuites et accessibles. En revanche, les écrivains et créateurs voient leur œuvre utilisée à leur insu, sans rémunération appropriée.

Un avis partagé par les représentants des auteurs britanniques (WGGB), qui réclament une réglementation stricte et la mise en place d’une indemnisation pour les créateurs concernés par cette pratique. Même certains créateurs de jeux de données, comme Jörg Tiedemann, expriment leurs inquiétudes quant à l’utilisation abusive de leur contribution initiale, considérée comme utile mais désormais invasive pour le marché créatif.

 
For Latest Updates Follow us on Google News
 

PREV Martin Fourcade obtient une sixième médaille d’or olympique après la suspension d’Evgeny Ustyugov
NEXT Le prix et la qualité de l’eau potable dans ces huit communes de la Sarthe sont « irréprochables »