Pour grandir, l’IA générative se tourne vers les livres

Paris (awp/afp) – Préserver les droits d’auteur en négociant avec les plateformes : face aux besoins toujours croissants d’intelligence artificielle générative, le monde de l’édition commence également à contracter avec ses parties prenantes pour monétiser ses contenus.

Le grand éditeur américain HarperCollins vient de proposer à certains de ses auteurs un contrat avec une société d’intelligence artificielle (IA) – dont l’identité est confidentielle – permettant à cette dernière d’utiliser leurs ouvrages publiés pour entraîner son modèle d’intelligence artificielle générative.

Dans une lettre consultée par l’AFP, la société d’IA propose 2 500 dollars par livre sélectionné afin d’entraîner son modèle de langage (LLM) pendant une durée de trois ans.

Car pour pouvoir produire toutes sortes de contenus sur une simple requête dans le langage courant, les modèles d’IA générative doivent être alimentés par une quantité toujours croissante de données.

Contacté, l’éditeur a confirmé l’opération. “HarperCollins a conclu un accord avec une société de technologie d’intelligence artificielle pour permettre une utilisation limitée de certains titres (…) pour former des modèles d’IA, afin d’améliorer la qualité et les performances des modèles”, écrit-il.

La maison d’édition explique également que l’accord “encadre clairement la production de modèles respectueux du droit d’auteur”.

L’offre a cependant été différemment appréciée dans le secteur de l’édition, et des écrivains comme l’Américain Daniel Kibblesmith l’ont fortement déclinée : « Je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d’argent qui ne me demanderait plus de travailler, puisque c’est le but final de cette technologie », s’est indigné l’auteur sur le réseau social Bluesky.

Nouveaux matériaux

Si HarperCollins est à ce jour l’un des plus grands éditeurs à conclure ce type d’accord, ce n’est pas le premier. L’éditeur américain d’ouvrages scientifiques Wiley a donné accès « au contenu d’ouvrages académiques et professionnels publiés pour un usage spécifique dans les modèles de formation, pour 23 millions de dollars, à une grande entreprise technologique », a-t-il indiqué en mars de cette année, lors de la présentation de ses résultats financiers.

Ce type de collaboration met en lumière les problèmes liés au développement de l’intelligence artificielle générative, qui s’entraîne sur d’immenses quantités de données collectées sur le web avec pour conséquence de potentielles violations des droits d’auteur.

Pour Giada Pistilli, responsable de l’éthique chez Hugging Face, plateforme franco-américaine d’IA en libre accès, cette annonce est une avancée, puisque le contenu des livres est monétisé. Mais elle regrette une marge de négociation limitée pour les auteurs.

“Ce que nous allons voir, c’est un mécanisme d’accords bilatéraux entre les entreprises de nouvelles technologies et les éditeurs ou détenteurs de droits d’auteur, alors qu’à mon avis, nous avons besoin d’une conversation plus large pour inclure un peu plus de parties prenantes”, dit-elle.

“On part de si loin”, commente Julien Chouraqui, le directeur juridique du Syndicat français de l’édition (SNE). “C’est un progrès : le fait qu’il y ait un accord signifie qu’il y a eu un dialogue et une volonté d’atteindre un équilibre entre l’utilisation des données sources, qui est soumise à des droits et qui va générer de la valeur”, dit-il.

Face à ces questions, les éditeurs de presse s’organisent également. Fin 2023, le quotidien américain The New York Times a lancé des poursuites contre OpenAI, créateur du logiciel ChatGPT, ainsi que Microsoft, son principal investisseur, pour violation de droits d’auteur. D’autres médias ont conclu des accords avec OpenAI.

Les entreprises technologiques n’auront peut-être plus d’autre choix pour améliorer leurs produits que de creuser en profondeur, d’autant plus qu’elles commencent à manquer de nouveaux matériaux pour alimenter leurs modèles.

La presse américaine rapportait récemment que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.

« Sur Internet, vous collectez des contenus licites et illicites, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de la qualité des données”, observe Julien Chouraqui, du SNE : “si nous souhaitons le développement d’un marché sur des bases vertueuses, il faut donc impliquer tous les acteurs.”

afp/ib

For Latest Updates Follow us on Google News

Related posts