IA et bibliothèque : le test du 6

IA et bibliothèque : le test du 6
IA et bibliothèque : le test du 6
The BNF François-Mitterrand in the 13th arrondissement of Paris.- Photo © PHILIPPE GUIGNARD
La Bibliothèque nationale du Danemark, à Copenhague.- Photo FANNY GUYOMARD

1. Cataloguer (enfin !) les collections…

Au cœur de Bruxelles, la Bibliothèque royale de Belgique (KBR) conserve près de huit millions de pièces sur huit hectares. « Chaque sol a une odeur » hume Sophie Vandepontseele, directrice des collections contemporaines. Chaque mois, plus de 3 000 papier entrent au dépôt légal. La tour du livre de 17 étages ressemble à Chasseurs de fantômes est presque plein. Et à la fin du premier quart-temps du 21e siècle, une œuvre n’existe pas vraiment si elle n’est pas cataloguée sur Internet. Or «Nous avons découvert il y a quelques années que la moitié de nos collections n’étaient pas identifiées en ligne», fait remarquer le bibliothécaire. En 2022, KBR a donc lancé avec Microsoft une application qui photographie les premières pages de chaque œuvre, et – c’est là qu’intervient l’intelligence artificielle – identifie les métadonnées d’un seul coup d’oeil. Le document est désormais indexable. Cette année, KBR étend cette application au dépôt légal. « L’objectif est de réduire à quelques semaines le délai entre leur arrivée ici et leur catalogage. »

2. …puis retranscrivez-les sur Internet… et protégez-les de l’IA !

Autre projet pour KBR : numériser, avec Google, 100.000 documents d’ici 2026. Aujourd’hui, seules 10 % des collections nationales belges sont numérisées. De quoi élargir leur audience. L’institution de Bibliothèque et Archives Canada utilise le logiciel Transkribus pour reconnaître les caractères manuscrits et les adapter au format numérique afin qu’ils soient lisibles sur Internet. « Le projet pilote ciblait les documents créés par le ministère gouvernemental, anciennement connu sous le nom des Affaires indiennes. Environ cinq millions de pages de cette collection sont accessibles sur le site Canadiana, met en vedette la réalisatrice Leslie Weir. Ce projet met en évidence l’engagement profond de notre organisation envers la réconciliation avec les peuples autochtones, ainsi que notre rôle important en tant qu’intendant et Source de documents précieux. » Ce gardien est d’autant plus indispensable face à une IA capable de générer de nouveaux contenus pouvant déformer la réalité. La bibliothèque peut identifier ces distorsions en les comparant aux documents originaux qu’elle conserve. Et qu’il prend soin de sauvegarder en plusieurs exemplaires, en cas de modification ou de perte de données.

3. Promouvoir le contenu numérisé

Le catalogage permet de connaître l’existence d’un document, et sa numérisation permet d’y accéder depuis un appareil connecté à Internet. Mais comment naviguer dans cette masse ? L’Institut national de recherche en sciences et technologies du numérique (Inria) et l’Institut national de l’audiovisuel (Ina) ont développé l’outil GallicaSnoop, du nom de la bibliothèque numérique de la Bibliothèque nationale de et « snoop » en anglais : ses yeux de lynx repèrent le similitudes entre des centaines de milliers d’images. De quoi permettre aux chercheurs de comparer efficacement l’iconographie dans le temps, de localiser les singes qui peuplent les marges des manuscrits médiévaux, d’identifier des véhicules inventés pour marcher sur l’eau… Le concept existe aussi pour la presse ancienne (projet NewsEye). Transformation des pixels d’une image en texte numérique, identification de noms de personnes et de lieux, création de mots clés et de filtres… Travaux coordonnés par l’Université de La Rochelle, avec les bibliothèques nationales de France, d’Autriche, de Finlande et d’autres universités européennes.

4. Conserver le patrimoine physique

L’intelligence artificielle repose sur l’identification des similitudes entre des milliers de données. Une fois qu’elle a identifié les grandes lois qui semblent structurer ce système, comme les règles grammaticales, elle peut proposer des prédictions. C’est en cela que consistait le projet de l’université Dalgocol, à partir de millions de documents de la BnF : prédire leur état de dégradation, en croisant leurs métadonnées. Ceux-ci indiquent de quel support il s’agit, les différents traitements subis… Ce gros travail en amont permet de gagner du temps par la suite : générer un calendrier qui indique quel document dormant dans les réserves doit être maintenu en priorité.

5. Aidez à créer un contenu fiable

La manière dont les agents conversationnels se nourrissent d’informations, puis les trient puis génèrent des textes, est très opaque. Comment peut-on lui faire confiance ? En demandant aux bibliothèques, garantes d’un savoir fiable, d’être les nourricières de l’IA. C’est ce que font la Bibliothèque nationale de France et l’INA pour un consortium d’entreprises : Mistral AI développe un grand modèle open Source de langue française à partir de leurs millions de données, Giskard est chargé d’évaluer la fiabilité du contenu et son sécurité, et Artefact rend tout utilisable par les entreprises. Ceci est également en cours à la Bibliothèque royale du Danemark, comme nous l’explique Cécile Christensen, directrice de la transformation numérique : les archives Internet du pays peuvent donner naissance à un grand modèle linguistique danois, qui pourrait servir d’aliment à des agents conversationnels alternatifs au ChatGPT américain, par exemple. L’algorithme serait « un logiciel open Source et transparent », précise ce diplômé en droit, qui est en discussion avec la Suède et la Norvège. « Ce sera toujours biaisé, car tout choix implique un parti pris, mais ce seront nos partis pris ! » Et pour conclure : « Cela permettrait à notre bibliothèque d’entrer dans une nouvelle ère et de jouer pleinement son rôle dans notre démocratie. »

« Ne cédons plus aux sirènes du techno-solutionnisme »

« Ne fantasmons pas sur l’impact et les possibilités de l’IA dans les bibliothèques pour la production de notices bibliographiques ou la recommandation de contenus. Les bibliothèques nationales n’ont pas eu besoin d’attendre l’essor de l’IA pour remplir leurs missions. Le gain de temps possible pour ce type de tâches ne rééquilibre pas l’impact carbone de ces technologies et leurs coûts en termes de développement et de maintenance. Il existe aujourd’hui des technologies moins énergivores pour faciliter la recherche documentaire. Une interface ergonomique et un travail sur la visibilité des bibliothèques et de leurs collections à travers le Web suffisent amplement à faciliter la recherche de documents pour les utilisateurs. C’est également un processus dans lequel les bibliothèques sont engagées depuis plusieurs années. La plupart des services d’IA générative tels que ChatGPT, Gemini et Midjourney sont mis à disposition par des géants du Web dont l’infrastructure s’appuie sur des centres de données qui consomment de l’électricité et de l’eau pour les refroidir. L’alternative est d’utiliser une IA que l’on installe directement sur nos machines, comme Jan.AI, sans avoir besoin de communiquer avec des serveurs hébergés ailleurs. Cela nous permet également de garder le contrôle de nos données. Ne cédons plus aux sirènes du techno-solutionnisme. Place au numérique éthique, raisonné et citoyen. Ce n’est pas la course aux dernières technologies à la mode qui nous rendra plus attractifs ou plus modernes auprès de nos utilisateurs, mais plutôt notre capacité à prendre du recul, à accompagner, à faire réfléchir sur l’impact et les conséquences du numérique dans notre société. »

!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(fenêtre, document,’script’, ‘https://connect.facebook.net/en_US/fbevents.js’); fbq(‘init’, ‘699370784177628’); fbq(‘piste’, ‘PageView’);

France
Livres

 
For Latest Updates Follow us on Google News
 

PREV « La proie et la meute » de Simon François aux Editions du Masque
NEXT Emmanuel Pierre, “Extravagants” (La Table Ronde)