La personnalisation stimule l’utilisation de modèles open source

Les entreprises cherchent à personnaliser les modèles GenAI pour répondre à des besoins spécifiques. Selon Databricks, 70 % d’entre elles utilisent des bases de données vectorielles pour optimiser les résultats du LLM. Dans ce contexte, les outils et modèles open source sont populaires.

Les entreprises gagnent en maturité dans leur utilisation des technologies au cœur de la GenAI. Selon une récente étude de Databricks, elles sont de plus en plus nombreuses à expérimenter et surtout à mettre en production des modèles de machine learning. Selon Databricks, dont le rapport s’appuie sur les données d’usage de sa plateforme, le traitement du langage naturel est devenu le type d’application de machine learning le plus utilisé et celui qui connaît la plus forte croissance, devant les modèles géospatiaux, les graphes, les séries temporelles et la vision par ordinateur.

On observe que les entreprises ne veulent plus se contenter des LLM standards du marché et souhaitent de plus en plus pouvoir personnaliser ces modèles, afin de répondre à des besoins spécifiques et limiter la génération de réponses erronées. Une tendance qui se vérifie par l’augmentation impressionnante de l’utilisation de bases de données vectorielles qui profitent de la génération de récupération augmentée (RAG), une technique utilisée par 70% des entreprises qui utilisent GenAI pour optimiser, sans recyclage, les résultats fournis par un LLM avec ressources de données supplémentaires. Databricks ajoute que l’utilisation des bases de données vectorielles a augmenté de 377 % au cours de l’année 2023.

Les outils et modèles open source sont populaires

Dans ce contexte marqué par un besoin de personnalisation, les trois quarts des entreprises optent pour des outils et modèles open source (souvent en parallèle de modèles propriétaires). C’est également le cas en Suisse, où les entreprises utilisent notamment Tensorflow et PyTorch, mais aussi les grands modèles de langage ouvert Llama et Mistral (selon 118 managers interrogés dans le cadre de l’Open Source Studie Schweiz 2024).

En pratique, les entreprises créent d’abord leurs modèles d’apprentissage automatique en les testant : elles essaient différents algorithmes et hyperparamètres pour s’assurer de mettre en production les modèles les plus appropriés. « Dans ce processus, les équipes poursuivent deux objectifs concurrents : elles doivent s’assurer que la phase d’expérimentation est la plus efficace possible, tout en mettant en production uniquement des modèles rigoureusement testés », expliquent les auteurs de l’étude Databricks. Avant de souligner un autre compromis fait dans le choix d’un modèle, entre performances, coût et latence. Les deux derniers aspects auraient plus de poids, selon les données de Databricks, qui notent que les modèles open source les plus petits, en termes de nombre de paramètres, sont privilégiés. Parmi les utilisateurs de Meta Llama 2, Llama 3 et Mistral, 77 % choisissent des modèles comportant 13 milliards de paramètres ou moins.

For Latest Updates Follow us on Google News

Les outils et modèles open source sont populaires

Related posts