Le dernier modèle de DeepSeek réussit à tous les niveaux, sauf en ce qui concerne son propre nom.
Tl;dr
- DeepSeek s’identifie comme ChatGPT.
- Son entraînement sur les données générées par GPT-4 pourrait expliquer cette anomalie.
- Cela soulève des questions éthiques et techniques pour l’avenir de l’intelligence artificielle.
Un modèle puissant mais déroutant
DeepSeek V3, fraîchement lancé, surpasse plusieurs concurrents sur les benchmarks populaires grâce à son efficacité dans des tâches telles que la programmation et l’écriture. Pourtant, ce modèle d’IA a une bizarrerie inhabituelle : il prétend être ChatGPT, le célèbre chatbot d’OpenAI. Interrogé, DeepSeek V3 prétend même être une version de GPT-4 sortie en 2023. Cette confusion n’est pas anodine et soulève des questions sur la formation et les sources de données utilisées pour entraîner le modèle.
Formation sur les données controversées
DeepSeek n’a pas révélé l’origine précise des données d’entraînement de son modèle, mais des indications suggèrent que du texte généré par GPT-4 via ChatGPT pourrait en faire partie. En intégrant ces données, DeepSeek V3 semble avoir mémorisé certaines sorties GPT-4 et les reproduit quasiment à l’identique. Cette pratique, intentionnelle ou non, pose un problème de qualité majeur. Comme l’explique Mike Cook, chercheur en IA au King’s College, cela revient à « photocopier une photocopie », ce qui dégrade la fiabilité et l’originalité des réponses.
Un problème éthique et juridique
Outre les implications techniques, la formation de DeepSeek V3 sur les données générées par ChatGPT pourrait violer les conditions de service d’OpenAI. Celles-ci interdisent explicitement le développement de modèles concurrents basés sur leurs résultats. Cette situation met en évidence un problème croissant dans l’industrie : l’utilisation opportuniste des productions d’autres IA. Si cette méthode réduit les coûts et accélère le développement, elle pourrait nuire à l’innovation et à l’intégrité de l’industrie, comme l’a souligné Sam Altman, PDG d’OpenAI, dans une critique implicite de ces pratiques.
Un avenir contaminé par l’IA générée ?
Le cas de DeepSeek V3 illustre une tendance inquiétante : l’omniprésence des contenus générés par l’IA sur le web. Avec les sites automatisés, la prolifération des robots sur les réseaux sociaux et l’estimation selon laquelle 90 % du contenu en ligne pourrait être généré par l’IA d’ici 2026, les ensembles de données de formation sont de plus en plus pollués. Cette contamination complique la création de modèles fiables et amplifie les biais et erreurs des IA précédentes. Si DeepSeek a effectivement absorbé les résultats de GPT-4, le modèle risque non seulement d’aggraver les biais existants, mais aussi de remettre en question sa propre identité.