Contrairement aux LLM conventionnels, ces modèles SR prennent plus de temps pour produire des réponses, et ce temps supplémentaire augmente souvent les performances sur les tâches impliquant les mathématiques, la physique et les sciences. Et ce dernier modèle ouvert fait tourner les têtes car il rattrape apparemment rapidement OpenAI.
Par exemple, DeepSeek rapporte que R1 a surpassé l’o1 d’OpenAI sur plusieurs benchmarks et tests, notamment AIME (un test de raisonnement mathématique), MATH-500 (un ensemble de problèmes de mots) et SWE-bench Verified (un outil d’évaluation de la programmation). Comme nous le mentionnons habituellement, les références en matière d’IA doivent être prises avec des pincettes, et ces résultats doivent encore être vérifiés de manière indépendante.
TechCrunch rapporte que trois laboratoires chinois – DeepSeek, Alibaba et Kimi de Moonshot AI – ont maintenant publié des modèles qui, selon eux, correspondent aux capacités de o1, DeepSeek ayant présenté pour la première fois la R1 en novembre.
Mais le nouveau modèle DeepSeek présente un problème s’il est exécuté dans la version hébergée dans le cloud : étant d’origine chinoise, R1 ne générera pas de réponses sur certains sujets comme la place Tiananmen ou l’autonomie de Taiwan, car il doit « incarner les valeurs socialistes fondamentales », selon Réglementation Internet chinoise. Ce filtrage provient d’une couche de modération supplémentaire qui ne pose pas de problème si le modèle est exécuté localement en dehors de la Chine.
Même avec une censure potentielle, Dean Ball, chercheur en IA à l’Université George Mason, a écrit sur X : « Les performances impressionnantes des modèles distillés de DeepSeek (versions plus petites de r1) signifient que les raisonneurs très compétents continueront à proliférer largement et à être exécutés sur des réseaux locaux. matériel, loin des yeux de tout régime de contrôle descendant.