Développé notamment par la DSCC et la ZHAW, le projet StatBot.swiss permettra prochainement de poser des questions à un chatbot pour explorer les données de la plateforme opendata.swiss.
Il sera possible de dialoguer avec un chatbot pour explorer et exploiter les données ouvertes fournies par l’administration publique suisse. Porté par le Data Science Competence Center (DSCC) et la Conférence suisse des offices régionaux de la statistique (CORSTAT), le projet StatBot.swiss devrait voir son prototype fonctionnel arriver d’ici fin 2023.
L’idée de concevoir le StatBot.swiss est née du constat que le grand public a encore du mal à naviguer et à faire bon usage des jeux de données ouvertes du gouvernement, accessibles via la plateforme opendata.swiss. Des compétences telles que le codage et le formatage des données sont généralement nécessaires pour y parvenir. Le chatbot en développement devrait donc pouvoir interagir avec ces données ouvertes par le biais de questions en langage naturel.
---Chatbot basé sur le logiciel libre ValueNet né à ZHAW
Afin de rendre les données lisibles par machine, la phase initiale du projet s’est concentrée sur l’harmonisation et la standardisation des données sur le site web opendata.swiss. Le chatbot, basé sur l’apprentissage automatique, est développé par le DSCC en collaboration avec l’Université des sciences appliquées de Zurich (ZHAW) afin d’interroger efficacement cette base de données SQL.
Le logiciel libre ValueNet né à la ZHAW, qui fournit un système complet d’interprétation du langage naturel et sa traduction en langage de requête SQL, constitue la base du projet. ValueNet permet de lancer une recherche dans une base de données structurée de manière relationnelle sur la base des termes précis de la requête. “L’idée principale de notre approche est d’utiliser non seulement les métadonnées de base de données sous-jacentes, mais également les informations de données de base comme entrée pour notre architecture de réseau neuronal. Nous proposons notamment une nouvelle esquisse architecturale pour extraire des valeurs d’une question utilisateur et proposer d’éventuelles valeurs candidates qui ne sont pas explicitement mentionnées dans la question”, expliquent les créateurs de ValueNet dans un document de recherche.
GPT-4 également utilisé dans un cas d’utilisation comparable
D’autres projets de traduction du langage naturel en requêtes SQL existent pour l’exploration de données statistiques. Comme Census GPT, aux Etats-Unis, un outil permettant de poser par écrit des questions sur la démographie des Etats-Unis dans un anglais simple. Census GPT-4 est basé sur textSQL, un projet qui fait appel à la puissance du golem le plus populaire, au cœur de ChatGPT. GPT-4 est utilisé pour convertir des questions en SQL mais aussi pour interroger la base de données.