Après un prototype dévoilé en juillet dernier, OpenAI lance officiellement un moteur de recherche au sein de ChatGPT. L’outil s’appuie sur une version spéciale de GPT-4o et se nourrit des résultats d’autres moteurs de recherche (vraisemblablement Bing), ainsi que du contenu de fournisseurs d’informations et de médias avec lesquels OpenAI a des partenariats. Au lieu d’une liste de liens, l’outil répond aux requêtes en langage naturel et intègre des extraits et des sources sur lesquels les utilisateurs peuvent cliquer pour en savoir plus. Ils peuvent également affiner leur recherche en discutant avec l’outil.
Bien entendu, les utilisateurs de ChatGPT n’ont pas attendu ce nouvel outil pour poser les questions qu’ils adressaient auparavant aux moteurs de recherche, c’est-à-dire à Google. Bien entendu, OpenAI n’est pas la première entreprise à fournir directement des réponses aux requêtes (Google Quick Answers), ni à combiner grand modèle de langage et moteur de recherche (Bing/Copilot), ni à mentionner les sources dans les réponses (Perplexity.ai). Cependant, le lancement de ChatGPT Search formalise cet usage au sein de l’outil pionnier et le plus populaire.
De l’intermédiaire à la Source d’information
Son lancement mérite donc qu’on s’y attarde face aux enjeux de cet usage émergent. Autrement dit, qu’est-ce qui change lorsque l’on utilise une interface conversationnelle mentionnant les sources comme moteur de recherche ? Premièrement, la puissance accordée au moteur de recherche évolue. Avec leur liste de résultats, les moteurs de recherche traditionnels font autorité sur les références à consulter : « voici les sites sur lesquels vous trouverez ce que vous cherchez ». Avec les interfaces conversationnelles, le moteur de recherche a désormais autorité sur l’information elle-même : « voici l’information que vous recherchez, voici la réponse à votre question ».
Ceci est problématique quand on sait que les grands modèles de langage peuvent inventer des informations et que l’interface conversationnelle renforce la confiance des utilisateurs. “Le fait que les informations absorbées par les modèles leur permettent également de générer des textes apparemment pertinents et cohérents n’en font pas des sources d’informations fiables, même s’il semble qu’une conversation rend les gens plus enclins à leur faire confiance”, expliquent les chercheurs de l’Université. de Washington dans un article scientifique sur la question (Localisation de la recherche).
Ces moteurs de recherche conversationnels ont également un impact sur la diversité des sources d’information. Avec les moteurs de recherche traditionnels, les liens qui n’apparaissaient pas sur la première page de résultats avaient déjà tendance à être négligés par les utilisateurs. Avec ChatGPT Search ou Perplexity, ces sources moins bien classées disparaissent complètement.
Délégation aux algorithmes
Dans leur article précité, les chercheurs mettent également en avant la variété des utilisateurs, des usages et des raisons d’utiliser un moteur de recherche : parfois on sait ce que l’on cherche, parfois on veut explorer ce qui se dit ou en savoir plus sur un sujet, parfois on veut pour sélectionner les sources auxquelles nous faisons le plus confiance.
Ces usages peinent à être supportés par les moteurs de recherche conversationnels. En synthétisant l’information, ces nouveaux outils font une grande partie du travail pour les utilisateurs. Ils n’ont plus besoin de scanner et sélectionner les résultats ni de reformuler leur requête. Cette délégation entraîne une réduction de la charge cognitive mais aussi un appauvrissement des usages et des tactiques.
« Nous devrions chercher à créer des outils qui aident les utilisateurs à trouver et à donner un sens aux informations plutôt que des outils qui prétendent tout faire à leur place », concluent les chercheurs.
Les réponses les plus attractives sont les moins sourcées
Comme Perplexity.ai, Chat GPT Search indiquera les sources sur lesquelles sa réponse est basée. Pour de nombreux utilisateurs, ces mentions et la possibilité de vérifier les informations à la Source constituent des arguments décisifs en faveur de ces solutions.
Sauf que cette Source d’information n’est pas fiable. Selon une étude comparative (Évaluation de la vérifiabilité dans les moteurs de recherche génératifs) par des chercheurs de l’Université de Stanford sur divers outils (Bing Chat, NeevaAI, Perplexity.ai, YouChat), seule la moitié des affirmations contenues dans les réponses sont pleinement étayées par les sources indiquées (rappel). Et, dans l’autre sens, une Source sur quatre ne soutient pas totalement l’affirmation qui lui est associée (exactitude).
Ce manque de fiabilité est d’autant plus préoccupant que le simple fait d’indiquer les sources renforce la confiance – qui prend réellement le temps de vérifier la Source de chaque affirmation ? “Nous pensons que ces résultats sont inacceptables pour des systèmes qui deviennent rapidement un outil populaire pour répondre aux requêtes et qui comptent déjà des millions d’utilisateurs, d’autant plus que les réponses générées semblent souvent informatives et utiles”, écrivent les chercheurs.
Un autre résultat de leur étude est encore plus problématique : l’utilité perçue des réponses est inversement corrélée à l’exactitude des sources évoquées. En d’autres termes, moins les propos sont étayés par les sources, plus les utilisateurs les jugent fluides et utiles. Explication des chercheurs : les outils les plus fiables ont tendance à copier ou à paraphraser les énoncés figurant dans les sources au détriment de la fluidité et de l’utilité. A l’inverse, les outils qui s’écartent des sources ont plus de latitude pour générer des réponses fluides qui semblent importantes et utiles.
Plus généralement, les chercheurs notent « que les moteurs de recherche génératifs existants ont du mal à traiter les requêtes auxquelles il est impossible de répondre de manière extractive (par exemple, en regroupant les informations de plusieurs citations) et à pondérer de manière appropriée les citations dont la pertinence varie (sélection du contenu) ».
Les deux documents de recherche mentionnés dans l’article :
Chirag Shah et Emily M. Bender. (2022). Recherche de situation.
Liu, NF, Zhang, T. et Liang, P. (2023). Évaluation de la vérifiabilité dans les moteurs de recherche génératifs.