Un petit laboratoire chinois d’intelligence artificielle a stupéfié le monde cette semaine en révélant la recette technique de son modèle de pointe, transformant son dirigeant solitaire en un héros national qui a défié les tentatives américaines visant à stopper les ambitions high-tech de la Chine.
DeepSeek, fondée par le gestionnaire de fonds spéculatifs Liang Wenfeng, a publié lundi son modèle R1, expliquant dans un article détaillé comment construire un grand modèle de langage avec un budget amorcé qui peut automatiquement apprendre et s’améliorer sans supervision humaine.
Des sociétés américaines, dont OpenAI et Google DeepMind, ont été pionnières dans le développement de modèles de raisonnement, un domaine relativement nouveau de recherche en IA qui tente de faire correspondre les modèles aux capacités cognitives humaines. En décembre, OpenAI, basée à San Francisco, a publié la version complète de son modèle o1 mais a gardé ses méthodes secrètes.
La version R1 de DeepSeek a déclenché un débat effréné dans la Silicon Valley sur la question de savoir si les sociétés américaines d’IA mieux dotées en ressources, notamment Meta et Anthropic, peuvent défendre leur avance technique.
Pendant ce temps, Liang est devenu un centre de fierté nationale dans son pays. Cette semaine, il a été le seul dirigeant d’IA sélectionné pour assister à une réunion médiatisée d’entrepreneurs avec le deuxième dirigeant le plus puissant du pays, Li Qiang. Il a été demandé aux entrepreneurs de « concentrer leurs efforts pour percer les technologies de base clés ».
En 2021, Liang a commencé à acheter des milliers d’unités de traitement graphique Nvidia pour son projet parallèle d’IA tout en gérant son fonds de trading quantitatif High-Flyer. Les initiés de l’industrie y voyaient les actions excentriques d’un milliardaire à la recherche d’un nouveau passe-temps.
« Lorsque nous l’avons rencontré pour la première fois, c’était un gars très ringard avec une coiffure épouvantable qui parlait de construire un cluster de 10 000 puces pour entraîner ses propres modèles. Nous ne l’avons pas pris au sérieux », a déclaré l’un des partenaires commerciaux de Liang.
« Il ne pouvait pas exprimer sa vision autrement que en disant : je veux construire cela, et cela changera la donne. Nous pensions que cela n’était possible qu’avec des géants comme ByteDance et Alibaba », a ajouté la personne.
Le statut de Liang en tant qu’étranger dans le domaine de l’IA était une source de force inattendue. Chez High-Flyer, il a bâti une fortune en utilisant l’IA et des algorithmes pour identifier des modèles susceptibles d’affecter les cours des actions. Son équipe est devenue adepte de l’utilisation des puces Nvidia pour gagner de l’argent en négociant des actions. En 2023, il lance DeepSeek, annonçant son intention de développer une IA à l’échelle humaine.
“Liang a constitué une équipe d’infrastructure exceptionnelle qui comprend vraiment comment fonctionnaient les puces”, a déclaré l’un des fondateurs d’une société LLM rivale. “Il a emmené avec lui ses meilleurs collaborateurs, du hedge fund à DeepSeek.”
Après que Washington a interdit à Nvidia d’exporter ses puces les plus puissantes vers la Chine, les sociétés locales d’IA ont été contraintes de trouver des moyens innovants pour maximiser la puissance de calcul d’un nombre limité de puces locales – un problème que l’équipe de Liang savait déjà comment résoudre.
“Les ingénieurs de DeepSeek savent comment libérer le potentiel de ces GPU, même s’ils ne sont pas à la pointe de la technologie”, a déclaré un chercheur en IA proche de l’entreprise.
Les experts du secteur affirment que l’accent mis par DeepSeek sur la recherche en fait un concurrent dangereux, car il est prêt à partager ses découvertes plutôt que de les protéger à des fins commerciales. DeepSeek n’a pas levé de fonds auprès de fonds extérieurs ni pris de mesures significatives pour monétiser ses modèles.
« DeepSeek fonctionne comme au début de DeepMind », a déclaré un investisseur en IA à Pékin. “Il est purement axé sur la recherche et l’ingénierie.”
Liang, qui est personnellement impliqué dans les recherches de DeepSeek, utilise le produit de ses transactions sur des fonds spéculatifs pour payer les meilleurs salaires des meilleurs talents en IA. Aux côtés de ByteDance, propriétaire de TikTok, DeepSeek est connu pour offrir la rémunération la plus élevée disponible aux ingénieurs en IA en Chine, avec un personnel basé dans des bureaux à Hangzhou et à Pékin.
-« Les bureaux de DeepSeek ressemblent à un campus universitaire pour chercheurs sérieux », a déclaré le partenaire commercial. “L’équipe croit en la vision de Liang : montrer au monde que les Chinois peuvent être créatifs et construire quelque chose à partir de zéro.”
DeepSeek et High-Flyer n’ont pas répondu à une demande de commentaire.
Liang a présenté DeepSeek comme une entreprise uniquement « locale », composée de docteurs issus des meilleures écoles chinoises, des universités de Pékin, Tsinghua et Beihang plutôt que d’experts d’institutions américaines.
Dans une interview accordée à la presse nationale l’année dernière, il a déclaré que son équipe de base « ne comptait pas de personnes revenant de l’étranger. Ils sont tous locaux. . . Nous devons développer nous-mêmes les meilleurs talents ». L’identité de DeepSeek en tant que société LLM purement chinoise lui a valu des applaudissements dans son pays.
DeepSeek a affirmé avoir utilisé seulement 2 048 Nvidia H800 et 5,6 millions de dollars pour former un modèle avec 671 milliards de paramètres, soit une fraction de ce qu’OpenAI et Google ont dépensé pour former des modèles de taille comparable.
Ritwik Gupta, chercheur en politique de l’IA à l’Université de Californie à Berkeley, a déclaré que les récents modèles publiés par DeepSeek démontrent qu’« il n’y a pas de fossé en ce qui concerne les capacités de l’IA ».
“La première personne à former des modèles doit dépenser beaucoup de ressources pour y parvenir”, a-t-il déclaré. “Mais le deuxième déménageur peut y arriver à moindre coût et plus rapidement.”
Gupta a ajouté que la Chine disposait d’un vivier d’ingénieurs système beaucoup plus important que les États-Unis, qui savent comment tirer le meilleur parti des ressources informatiques pour former et exécuter des modèles à moindre coût.
Les initiés du secteur affirment que même si DeepSeek a montré des résultats impressionnants avec des ressources limitées, la question reste ouverte de savoir s’il peut continuer à être compétitif à mesure que le secteur évolue.
Les retours chez High-Flyer, son grand bailleur de fonds, sont à la traîne en 2024, ce qu’une personne proche de Liang a imputé au fait que l’attention du fondateur était principalement concentrée sur DeepSeek.
Ses rivaux américains ne restent pas les bras croisés. Ils construisent des méga « clusters » de puces Blackwell de nouvelle génération de Nvidia, créant une puissance de calcul qui menace de créer une fois de plus un écart de performances avec ses rivaux chinois.
Cette semaine, OpenAI a annoncé la création d’une coentreprise avec la société japonaise SoftBank, baptisée Stargate, avec l’intention de dépenser au moins 100 milliards de dollars en infrastructures d’IA aux États-Unis. Le xAI d’Elon Musk étend massivement son supercalculateur Colossus pour contenir plus d’un million de GPU pour aider à former ses modèles Grok AI.
« DeepSeek possède l’un des plus grands clusters informatiques avancés de Chine », a déclaré le partenaire commercial de Liang. « Ils ont une capacité suffisante pour l’instant, mais pas pour longtemps. »
Reportage supplémentaire de Wenjie Ding à Pékin