Des chercheurs chinois viennent de créer un rival open source de ChatGPT en deux mois. La Silicon Valley est paniquée.

La Chine a publié un rival open source et bon marché du ChatGPT d’OpenAI, qui suscite l’enthousiasme de certains scientifiques et l’inquiétude de la Silicon Valley.

DeepSeek, le laboratoire chinois d’intelligence artificielle (IA) à l’origine de l’innovation, a dévoilé son modèle LLM gratuit DeepSeek-V3 fin décembre 2024 et affirme qu’il a été construit en deux mois pour seulement 5,58 millions de dollars, soit une fraction du temps et du coût. exigée par ses concurrents de la Silicon Valley.

Suivant de près, il y a un modèle encore plus récent appelé DeepSeek-R1, sorti lundi 20 janvier. Dans les tests de référence tiers, DeepSeek-V3 a égalé les capacités de GPT-4o d’OpenAI et de Claude Sonnet 3.5 d’Anthropic tout en surpassant d’autres, tels que Llama 3.1 de Meta et Qwen2.5 d’Alibaba, dans des tâches comprenant la résolution de problèmes, le codage et les mathématiques.

Désormais, R1 a également surpassé le dernier modèle o1 de ChatGPT dans bon nombre des mêmes tests. Ces performances impressionnantes – pour une fraction du coût des autres modèles, parallèlement à leur nature semi-open source – ont séduit les experts en IA et fait planer le spectre d’une supériorité des modèles d’IA chinois par rapport à leurs homologues américains.

“Nous devrions prendre très, très au sérieux les développements en Chine”, a déclaré Satya Nadella, PDG de Microsoft, partenaire stratégique d’OpenAI, lors du Forum économique mondial de Davos, en Suisse, le 22 janvier.

En rapport: L’IA peut désormais se reproduire – une étape qui terrifie les experts

Les systèmes d’IA apprennent à l’aide de données d’entraînement provenant d’entrées humaines, ce qui leur permet de générer des résultats basés sur les probabilités de différents modèles apparaissant dans cet ensemble de données d’entraînement.

Pour les grands modèles de langage, ces données sont du texte. Par exemple, le GPT-3.5 d’OpenAI, sorti en 2023, a été formé sur environ 570 Go de données textuelles du référentiel Common Crawl – ce qui représente environ 300 milliards de mots – tirées de livres, d’articles en ligne, de Wikipédia et d’autres pages Web.

Les modèles de raisonnement, tels que R1 et o1, sont une version améliorée des LLM standard qui utilisent une méthode appelée « chaîne de pensée » pour revenir en arrière et réévaluer leur logique, ce qui leur permet d’aborder des tâches plus complexes avec une plus grande précision.

Cela a rendu les modèles de raisonnement populaires parmi les scientifiques qui cherchent à intégrer l’IA dans leurs travaux.

Mais contrairement au o1 de ChatGPT, DeepSeek est un modèle « à poids ouvert » qui (bien que ses données d’entraînement restent exclusives) permet aux scientifiques d’examiner l’intérieur et de modifier son algorithme. Tout aussi important est son prix réduit pour les utilisateurs : 27 fois moins que o1.

Outre ses performances, le battage médiatique autour de DeepSeek vient de sa rentabilité ; le budget restreint du modèle est minuscule comparé aux dizaines de millions, voire centaines de millions, que les entreprises rivales dépensent pour former leurs concurrents.

De plus, les contrôles américains à l’exportation, qui limitent l’accès des entreprises chinoises aux meilleures puces informatiques d’IA, ont obligé les développeurs de R1 à créer des algorithmes plus intelligents et plus économes en énergie pour compenser leur manque de puissance de calcul. ChatGPT aurait eu besoin de 20 000 GPU Nvidia pour traiter ses données de formation, les ingénieurs de DeepSeek affirment avoir obtenu des résultats similaires avec seulement 2 000.

Il reste à voir dans quelle mesure cela se traduira par des applications scientifiques et techniques utiles, ou si DeepSeek a simplement entraîné son modèle pour réussir les tests de référence – mais les scientifiques et les investisseurs en IA surveillent de près.

For Latest Updates Follow us on Google News

Related posts