les données, leur qualité, leur conformité (4ème partie) – .

les données, leur qualité, leur conformité (4ème partie) – .
les données, leur qualité, leur conformité (4ème partie) – .
La data est au cœur du bon fonctionnement des modèles de machine learning, deep learning, LLM, RAG, etc. Aucun modèle, aucun, n’est capable de comprendre notre monde sans être passé par une phase de formation.

Certains modèles sont capables d’apprendre par eux-mêmes, en fonction des données qui leur sont fournies ; d’autres exigent que les humains pré-étiquetent les données. Mais c’est invariable, un modèle d’IA n’est rien sans les données qui vont lui permettre d’apprendre.

Il est donc facile d’imaginer que la qualité de ce que le modèle apprend dépend de la qualité des données qui servent de base d’apprentissage. En une phrase, nous avons tout dit ! Et le problème apparaît.
J’alimente mon modèle en données de mauvaise qualité, il prédira ou générera des résultats de mauvaise qualité ! Cependant, ce n’est pas très compliqué à comprendre.

Alors comment faire ? En fait, tout est déjà prévu, rien de nouveau, il suffit d’appliquer les bonnes pratiques liées à la gouvernance des données. Oui, en effet, déployer des outils d’IA en production sans gouvernance des données est aussi dangereux que de prendre le volant sans avoir passé le code !

La gouvernance des données comporte trois facettes : la connaissance (le catalogue de données), la qualité des données utilisées, et enfin leur conformité.

Alors, IA ou tableau de bord, les problématiques sont les mêmes.

La connaissance d’abord. Si vous ne savez pas quelles données alimentent vos modèles d’IA, vous vous trompez complètement. Ou plus précisément, vous prenez le risque que des données inadaptées soient utilisées. Alors première étape, référencer, cataloguer les données utilisées par les modèles. Nous utiliserons souvent la modélisation graphique pour relier les données, les algorithmes qui les utilisent et les responsables. Donc, première étape, une carte, un catalogue de données.

Deuxième étape, la qualité. Deuxièmement, car comment mesurer la qualité de données que l’on n’a pas référencées auparavant ? Alors mesurez, évaluez, quantifiez la non-qualité. Ce n’est pas parce qu’on a l’habitude d’entendre à la machine à café que ces données sont fausses qu’elles le sont réellement. Si oui, dans quelle proportion ? Est-ce encore utilisable ? Vous ne pouvez pas améliorer ce que vous n’avez pas mesuré. Une fois mesurée, nous recherchons les causes profondes de cette non-qualité. Cela ne sert à rien de corriger le magasin de données si vous n’avez pas au préalable colmaté la fuite ! A cette étape, nous évaluerons si les données peuvent être utilisées pour alimenter des algorithmes et nous informerons les utilisateurs de l’état réel de leur qualité.

Enfin, troisièmement, la conformité. Cela ne vous choque-t-il pas d’alimenter un algorithme avec des données que vous n’avez pas le droit d’utiliser ? Pour des raisons de conformité au RGPD, pour des raisons d’éthique, pour des raisons de conformité à l’AI Act, etc. Les données utilisées par l’IA doivent donc être conformes, pas d’échappatoire.

En résumé, avant toute production, les données utilisées par l’intelligence artificielle doivent être cataloguées, leur qualité doit être mesurée et leur conformité validée.
Je l’ai dit clairement avant de me lancer dans la production. Que certains tests soient réalisés par des data scientists en mode « sandbox » sur des données anonymisées, juste « pour voir ». Il est acceptable. Mais attention, sa mise en production doit passer par les fourches de la gouvernance des données et de l’IA.

Du point de vue des responsabilités d’entreprise, on comprend donc les nombreuses intersections entre le responsable de la gouvernance des données et celui en charge de la gouvernance de l’Intelligence Artificielle. Et il est logique que dans certaines organisations, la même personne assume les deux responsabilités.

 
For Latest Updates Follow us on Google News
 

PREV Les actions asiatiques stagnent, l’euro gagne après le premier tour des élections françaises
NEXT Le salon automobile de Genève sabordé face à la baisse d’intérêt des constructeurs