Que reste-t-il encore aux grands modèles ? Sur certains tests mathématiques et arithmétiques, le nouveau SLM « Phi-4 » de Microsoft s’avère plus pertinent que les grands modèles frontières GPT-4o, Claude 3.5 ou Gemini Pro 1.5 !
Longtemps dominé par des architectures gigantesques accumulant des centaines de milliards de paramètres, l’écosystème de l’IA s’enthousiasme désormais pour les avantages stratégiques des modèles plus compacts. Rapides à former, plus économes en ressources informatiques et plus faciles à déployer, ces « petits » modèles étaient jusqu’à présent requis dans des environnements contraints, qu’il s’agisse d’applications industrielles ou d’outils dédiés à la recherche. ou des services hybrides. Mais aujourd’hui, ils sont incontournables partout, dans les laboratoires de recherche comme dans les entreprises et même dans l’IA cloud comme en témoigne l’énorme potentiel de « Gemini 2.0 Flash », désormais modèle multimodal de référence pour l’assistant Gemini AI.
En 2024, les petits modèles se sont multipliés comme des petits pains chauds approchant et dépassant parfois les capacités des grands modèles tout en nécessitant beaucoup moins de ressources informatiques et énergétiques pour les déduire, voire en étant capables d’exécuter localement une IA tout aussi douée que les grands modèles cloud pour peu que ils sont utilisés à bon escient.
Parmi ces petits modèles, la gamme Phi de Microsoft a fait beaucoup parler d’elle cette année. Les premières versions de Phi ont ainsi été adoptées par des équipes de recherche, des développeurs indépendants et des entreprises technologiques soucieuses de trouver un compromis optimal entre performances, rapidité et coût. Les itérations précédentes, telles que Phi-3, ont démontré la capacité à maintenir une qualité de réponse satisfaisante tout en limitant la taille du réseau neuronal. Les utilisateurs y ont vu une opportunité d’intégrer plus facilement l’IA dans leurs produits et services, sans les lourdes infrastructures et les coûts énergétiques associés aux géants du domaine.
Phi-4, un petit modèle qui raisonne
C’est dans ce contexte que Microsoft vient d’annoncer Phi-4une nouvelle génération qui se distingue par des avancées significatives, notamment dans le domaine des mathématiques. Les grands LLM frontières comme « Open AI o1 » ou « Anthropic Sonnet 3.5 » ont à peine introduit des capacités de raisonnement que de telles capacités commencent déjà à déferler dans le monde des petits modèles !
Avec 14 milliards de paramètresPhi-4 reste un modèle de taille « modeste » par rapport aux standards du marché, mais il atteint un niveau de performance remarquable lors d’évaluations exigeantes, surpassant même des modèles plus grands – dont Gemini 1.5 ou Claude 3.5 Sonnet – dans la résolution de problèmes mathématiques !
Ce succès repose sur la qualité de l’ensemble de formation soigneusement choisi, la mise en œuvre d’un nettoyage des données plus strict, un processus post-formation minutieux (par exemple via des techniques d’échantillonnage par rejet, d’auto-révision, d’inversion des instructions), le tout afin de garantir la crédibilité. des évaluations et de la pertinence des résultats. De plus, un effort particulier a été fait pour éviter les risques de contamination des tests de performances par des données déjà vues lors de la phase d’apprentissage. Cette précaution s’avère cruciale pour authentifier la réelle amélioration des capacités du modèle, confirmée par des tests mathématiques récents et inédits.
Bien évidemment, la taille modeste de Phi-4 reste un obstacle à certaines formes de raisonnement approfondi ou de compréhension contextuelle, et le modèle n’échappe pas au phénomène bien connu des « hallucinations » lorsque le domaine abordé est trop spécifique ou insuffisamment représenté dans le corpus de formation.
Pour l’instant, Phi-4 est disponible via la plateforme Azure AI Foundry, sous licence de recherche, et devrait bientôt rejoindre d’autres canaux de distribution, dont Hugging Face. Sa disponibilité s’inscrit dans une démarche visant à démocratiser des modèles plus raisonnables en taille, plus simples à personnaliser et mieux adaptés aux différents contextes opérationnels. Nul doute qu’on entendra encore beaucoup parler de petits modèles en 2025…
Source : Présentation de Phi-4 : le tout nouveau modèle de petit langage de Microsoft spécialisé dans le raisonnement complexe
A lire aussi :
Google Gemini 2.0 : l’ère des agents intelligents
Avec Phi-3, Microsoft améliore encore ses modèles Gen AI de poche
Chérie, j’ai réduit GPT-4o…
Les modèles d’IA open Source passent à la vitesse supérieure
Félicitations, vous êtes abonné à notre newsletter !
Related News :