Microsoft présente Phi-3, la prochaine génération de ses petits modèles de langage

Les grands modèles linguistiques (LLM) ont des capacités impressionnantes dans différents domaines, mais les modèles linguistiques plus petits (SLM) constituent une alternative intéressante pour les entreprises qui peuvent les exploiter de manière rentable pour des tâches spécifiques. Microsoft, qui a présenté le SLM Phi-1 en juin 2023, a présenté le 23 avril la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, le Phi-3 mini, déjà disponible, possède 3,8 milliards de paramètres et, grâce à sa petite taille , peut être déployé localement sur un téléphone ou un ordinateur.

Microsoft présente les modèles Phi-3 comme « les petits modèles de langage les plus performants et les plus rentables disponibles ».

Phi-3 Mini est un modèle de transformateur de décodeur dense, affiné à l’aide d’un réglage fin supervisé (SFT) et d’une optimisation des préférences directes (DPO) pour garantir l’alignement avec les préférences humaines et les directives de sécurité. Il est disponible sur Azure AI Studio, Hugging Face et Ollama.

Il a été formé pendant sept jours sur 512 GPU NVIDIA H100 Tensor Core. NVIDIA nous a également indiqué qu’il était possible de l’essayer sur ai.nvidia.com où il sera packagé sous NVIDIA NIM, “un microservice avec une interface de programmation d’application standard qui peut être déployée n’importe où”.

Dans leur rapport technique, les chercheurs expliquent que « L’innovation réside entièrement dans notre ensemble de données de formation, une version élargie de celle utilisée pour PHI-2, composée de données Web fortement filtrées et de données synthétiques.« .

Le modèle, formé sur 3 300 milliards de jetons, a également été aligné sur la robustesse, la sécurité et le format de discussion. Sa fenêtre pop-up, pouvant aller de 4 000 à 128 000 tokens, lui permet d’assimiler et de raisonner sur des contenus textuels volumineux (documents, pages web, code, etc.). Selon Microsoft, Phi-3-mini démontre de solides compétences en raisonnement et en logique, ce qui en fait un bon candidat pour les tâches analytiques.

Des performances solides malgré une petite taille

Microsoft a partagé dans son blog les performances du Phi-3 mini, mais aussi celles du Phi-3-small (7B) et du Phi-3-medium (14B) qui seront bientôt disponibles et ont été entraînés sur 4,8 billions de tokens.

Les performances des modèles Phi-3 ont été comparées à celles des Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo et Claude-3 Sonnet. Tous les chiffres rapportés sont produits avec le même pipeline afin qu’ils soient effectivement comparables.

Le Phi-3-mini surpasse le Gemma-7B et le Mistral-7B sur certains tests de référence comme le MMLU, tandis que les Phi-3-small et Phi-3-medium, nettement plus performants, surpassent les modèles beaucoup plus grands, notamment le GPT-3.5 Turbo. Cependant, en raison de leur petite taille, les modèles Phi-3 sont moins compétitifs pour les tâches axées sur des connaissances factuelles, comme celles évaluées dans TriviaQA.

Cependant, leurs capacités dans de nombreux autres domaines les rendent particulièrement utiles dans les scénarios où la taille du modèle et les ressources disponibles sont des facteurs critiques, comme dans les environnements aux ressources limitées ou les applications nécessitant des temps de réponse rapides.

For Latest Updates Follow us on Google News

Des performances solides malgré une petite taille

Related posts