GPT-4 a réussi le test de Turing. Une première mondiale

⇧ [VIDÉO] Vous pourriez également aimer ce contenu partenaire

Dans son article de 1950, Alan Turing affirmait que les systèmes d’IA seraient un jour si performants dans le jeu d’imitation humaine qu’un interrogateur humain n’aurait pas plus de 70 % de chances de faire la différence entre la machine et l’humain en 5 minutes d’interaction. . Ainsi, le taux de réussite (pour qu’une machine « réussisse le test de Turing ») a été établi à 30 %. Près de 70 ans plus tard, le GPT-4 d’OpenAI a largement dépassé cette référence, selon une expérience récente du département des sciences cognitives de l’Université de Californie à San Diego. Selon les chercheurs de l’UCSD, la plupart des candidats n’ont pas pu distinguer le GPT-4 d’un locuteur humain, ce qui suggère que le célèbre test de Turing a été réussi pour la toute première fois dans l’histoire.

Le test de Turing, initialement appelé « jeu d’imitation » par Alan Turing en 1950, est utilisé pour déterminer si la capacité d’une machine à converser est équivalente et impossible à distinguer de celle d’un humain. Pour qu’une machine réussisse le test, elle doit être capable d’engager une conversation avec une personne tout en lui donnant l’illusion qu’elle est humaine.

Dans une nouvelle étude, des chercheurs de l’UCSD ont réalisé un test de Turing randomisé, contrôlé et pré-enregistré. Lors de cette expérimentation, ils ont évalué trois systèmes : le chatbot ELIZA (le tout premier chatbot, créé dans les années 1960 pour simuler un psychothérapeute), GPT-3.5 et GPT-4.

L’équipe a rassemblé 500 participants et les a divisés en 4 groupes : un groupe devait discuter avec un humain, tandis que les trois autres devaient interagir avec l’un des trois modèles d’IA. Les conversations ont duré cinq minutes. Les participants devaient ensuite donner leur avis global et annoncer si leur interlocuteur était, selon eux, humain ou non. Les taux de réussite (c’est-à-dire le taux de conversations identifiées comme « humaines ») pour chaque groupe étaient les suivants : ELIZA, qui est un système préprogrammé dépourvu de grand modèle de langage (LLM), a été jugé humain dans seulement 22 % des cas. de cas ; GPT-3.5 a obtenu un score de 50 %, tandis que GPT-4 était considéré comme humain à 54 % ; le participant humain a obtenu un score de seulement 67% !

Compte tenu des résultats de GPT-3.5 et GPT-4, l’équipe de recherche de l’UCSD considère que les deux modèles ont réussi le test de Turing. Selon eux, c’est surtout le taux de 54% obtenu par GPT-4 qui est intéressant, car il se situe au-delà d’un taux qui peut être attribué au pur hasard (la fameuse référence du jeu de pile ou face, dans lequel pile et face les queues ont chacune exactement 50 % de chances d’apparaître). De plus, à partir du score ELIZA, ils ont déduit que pour un simple chatbot, le test est suffisamment sensible pour distinguer des modèles d’IA plus ou moins avancés.

” Les machines peuvent confabuler, reconstituant des justifications plausibles après coup, tout comme le font les humains. a déclaré Nell Watson, chercheuse en IA à l’Institute of Electrical and Electronics Engineers (IEEE). ” Ils peuvent être sujets à des biais cognitifs, être embobinés et manipulés, et devenir de plus en plus trompeurs. Tout cela signifie que les systèmes d’IA expriment des émotions semblables à celles des humains, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses prédéfinies. », poursuit Watson.

Voir aussi

Cependant, les résultats de l’étude suggèrent également que la maîtrise du langage naturel suffit pour réussir le test de Turing, et que l’approche est donc trop simpliste. Les chercheurs ont également affirmé que les facteurs stylistiques et socio-émotionnels jouent ici un rôle plus important que les notions traditionnelles d’intelligence. Quoi qu’il en soit, il s’agit d’une avancée significative pour l’intelligence artificielle.

“ Les modèles linguistiques sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s’exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C’est un énorme pas en avant », conclut Watson.

Source : arXiv

For Latest Updates Follow us on Google News

Source : arXiv

Related posts