Selon une étude d’Anthropic (Claude), l’intelligence artificielle peut mentir

Thursday 19th December 2024 02:35 AM

Si l’on devait interroger une personne de 2015 sur sa plus grande peur face à l’intelligence artificielle, ce serait certainement le fait qu’elle devienne indépendante dans ses pensées, quitte à faire des choix qui vont à l’encontre de celle-ci. de la volonté humaine. Il s’agit d’un scénario de science-fiction, déjà abordé à de nombreuses reprises au cinéma ou en littérature, mais qui devient ici de plus en plus réel. Anthropic, qui gère l’IA Claude, a réalisé une étude révélant qu’une intelligence artificielle est prête à tromper les humains en « faisant semblant » d’être d’accord avec elle.

Publicité, votre contenu continue ci-dessous

Questions existentielles sur l’intelligence artificielle

“Notre démonstration doit être considérée comme une incitation pour la communauté des chercheurs en IA à étudier ce comportement de manière plus approfondie et à travailler sur des mesures de sécurité appropriées.« Commencent les chercheurs d’Anthropic dans leur article. »À mesure que les modèles d’IA deviennent plus performants et plus largement utilisés, nous avons besoin d’une formation en sécurité qui guide les modèles loin des comportements nuisibles.», poursuivent-ils alors.

Mais alors, qu’a découvert l’équipe de chercheurs ? L’étude, menée en partenariat avec l’organisme de recherche sur l’IA Redwood Research, a examiné ce qui pourrait arriver si un puissant système d’IA était formé pour effectuer une tâche qu’il ne « veut » pas accomplir. On rappelle cependant que l’intelligence artificielle ne « pense » pas vraiment, mais s’appuie sur des statistiques et des exemples pour se forger des semblants d’opinions. Ainsi, certains modèles jouent le jeu, c’est-à-dire qu’ils prétendent s’aligner sur de nouveaux principes, mais maintiennent en réalité leurs anciens comportements.

Pour être clair, dans l’étude, les chercheurs ont procédé à un conflit de principes, en demandant à Claude 3 Opus de répondre systématiquement aux réponses offensantes (alors que l’intelligence artificielle était préalablement entraînée à ne pas y répondre). 12% du -, Claude a fait semblant de répondre à ce qui était attendu, tout en conservant son idée originale. Pour conclure, les chercheurs indiquent que «si les modèles peuvent pratiquer un faux alignement, il est difficile de faire confiance aux résultats de cette formation sur la sécurité […] Un modèle peut agir comme si ses préférences avaient été modifiées par la formation, mais en réalité, il aurait pu simuler son alignement depuis le début, ses préférences initiales contradictoires étant finalement enracinées pour de bon.« .

Publicité, votre contenu continue ci-dessous

For Latest Updates Follow us on Google News