Quittez un peu Internet et procurez-vous un bon livre… En quête de données pour perfectionner leurs modèles, les géants de l’IA semblent se tourner vers le monde du livre. L’éditeur américain HarperCollins vient de proposer à certains de ses auteurs un contrat avec une société d’intelligence artificielle (IA), dont l’identité est confidentielle, permettant à cette dernière d’utiliser leurs ouvrages publiés pour entraîner son modèle d’intelligence artificielle générative.
En cliquant sur“J’accepte”vous acceptez le dépôt de cookies par des services externes et aurez ainsi accès au contenu de nos partenaires.
J’accepte
Et pour mieux payer 20 Minutes, n’hésitez pas à accepter tous les cookies, même pour une seule journée, via notre bouton“J’accepte pour aujourd’hui” dans la bannière ci-dessous.
Plus d’informations sur la page Politique de gestion des cookies
Dans une lettre consultée par l’AFP, la société d’IA propose 2 500 dollars par livre sélectionné afin d’entraîner son modèle de langage pendant une durée de trois ans. Car pour pouvoir produire toutes sortes de contenus sur une simple requête dans le langage courant, les modèles d’IA générative doivent être alimentés par une quantité toujours croissante de données.
Pas une première
L’offre a été diversement appréciée dans le secteur de l’édition, et des écrivains comme l’Américain Daniel Kibblesmith l’ont fortement déclinée : « Je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d’argent qui ne nécessiterait plus de travail, puisque c’est le but final de cette technologie », a déploré l’auteur sur le réseau social Bluesky. Si HarperCollins est à ce jour l’un des plus grands éditeurs à conclure ce type d’accord, ce n’est pas le premier. L’éditeur américain d’ouvrages scientifiques Wiley a donné accès à “le contenu d’ouvrages académiques et professionnels publiés pour un usage spécifique dans les modèles de formation, pour 23 millions de dollars, à une grande entreprise technologique”, a-t-il déclaré en mars de cette année, lors de la présentation de ses résultats financiers.
Vous devrez payer
Les entreprises technologiques n’auront peut-être plus d’autre choix pour améliorer leurs produits que de creuser en profondeur, d’autant plus qu’elles commencent à manquer de nouveaux matériaux pour alimenter leurs modèles.
La presse américaine rapportait récemment que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.
« Sur le Net, vous collectez des contenus licites et illicites, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de la qualité des données », observe Julien Chouraqui, du SNE : « si nous nous engageons dans le développement d’un marché sur des bases vertueuses, il faut donc impliquer tous les acteurs. »