Bonne nouvelle si vous êtes un utilisateur Ollama pour tout ce qui concerne LLM, les amis !
Ils viennent d’implémenter le support natif pour Hugging Face ! En français, cela signifie que vous pouvez désormais exécuter n’importe quel GGUF présent sur Hugging Face avec une simple ligne de commande. Et quand je dis n’importe lequel, je ne plaisante pas : il y a actuellement plus de 45 000 modèles GGUF publics sur le Hub !
La syntaxe est d’une simplicité enfantine :
ollama run hf.co/{username}/{reponame}:latest
Par exemple, pour lancer le dernier Llama3.2 au format GGUF, il suffit d’aller en récupérer un sur Hugging Face et d’exécuter la commande :
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
Incroyable, non ? Mais attendez, ce n’est pas tout !
Par défaut, Ollama utilise le schéma de quantification Q4_K_M lorsqu’il est disponible. Mais si vous voulez être exigeant, vous pouvez spécifier votre propre schéma comme ceci :
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
Si vous gérez un référentiel avec un GGUF, vous pouvez même personnaliser le modèle de discussion et les paramètres du modèle. Ajoutez simplement un fichier template
(pour le modèle de chat) ou params
(pour les paramètres) dans votre référentiel Hugging Face. C’est un modèle Go, pas Jinja, alors soyez prudent si vous savez quelque chose sur les modèles !
Voici quelques autres designs sympas à essayer :
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF
Alors, prêt à transformer votre ordinateur en une machine à IA omnisciente ? Avec Ollama et Hugging Face, c’est comme si c’était déjà fait !
Amusez-vous!