La bataille à mille milliards de dollars pour construire l’IA

Découvrez comment les entreprises intègrent l’IA de manière responsable dans leur production. Cet événement sur invitation uniquement à SF explorera l’intersection de la technologie et des affaires. Découvrez comment vous pouvez attendre ici.

Lors des tests, un modèle de langage étendu (LLM) récemment publié a semblé reconnaître qu’il était en cours d’évaluation et commenté la pertinence des informations qu’il traitait. Cela a conduit à spéculer que cette réponse pourrait être un exemple de métacognition, une compréhension de ses propres processus de pensée. Bien que ce récent LLM ait suscité une conversation sur le potentiel de l’IA en matière de conscience de soi, la véritable histoire réside dans la puissance même du modèle, fournissant un exemple des nouvelles capacités qui apparaissent à mesure que les LLM grandissent.

Parallèlement, les capacités émergentes et les coûts, qui atteignent désormais des chiffres astronomiques, augmentent également. Tout comme l’industrie des semi-conducteurs s’est regroupée autour d’une poignée d’entreprises capables de se permettre les dernières usines de fabrication de puces valant plusieurs milliards de dollars, le domaine de l’IA pourrait bientôt être dominé uniquement par les plus grands géants de la technologie – et leurs partenaires – capables de supporter la concurrence. facture pour le développement des derniers modèles de fondation LLM comme GPT-4 et Claude 3.

Le coût de formation de ces derniers modèles, dont les capacités correspondent et, dans certains cas, dépassent les performances humaines, monte en flèche. En fait, les coûts de formation associés aux modèles les plus récents approchent les 200 millions de dollars, menaçant de transformer le paysage industriel.

Source: https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance

Si cette croissance exponentielle des performances se poursuit, non seulement les capacités de l’IA progresseront rapidement, mais les coûts aussi. Anthropic est l’un des leaders dans la création de modèles linguistiques et de chatbots. Du moins dans la mesure où le montrent les résultats des tests de référence, leur produit phare Claude 3 est sans doute le leader actuel en termes de performances. Comme GPT-4, il est considéré comme un modèle de base pré-entraîné sur une gamme diversifiée et étendue de données pour développer une large compréhension du langage, des concepts et des modèles.

Événement VB

Le AI Impact Tour – San Francisco

Rejoignez-nous pour explorer les complexités de l’intégration responsable de l’IA dans les entreprises lors de la prochaine étape du AI Impact Tour de VB à San Francisco. Ne manquez pas l’occasion d’obtenir des informations auprès d’experts du secteur, de réseauter avec des innovateurs partageant les mêmes idées, d’explorer l’avenir de GenAI avec des expériences client et d’optimiser les processus commerciaux.

Demandez une invitation

Performance de référence LLM, mars 2024. Source : https://www.anthropic.com/news/claude-3-family

Le cofondateur et PDG de l’entreprise, Dario Amodei, a récemment discuté des coûts de formation de ces modèles, estimant la formation de Claude 3 à environ 100 millions de dollars. Il a ajouté que les modèles qui sont actuellement en formation et qui seront introduits plus tard en 2024 ou au début de 2025 sont « plus proches du coût d’un milliard de dollars ».

Les coûts de formation LLM augmentent avec la sophistication du modèle. Source: Rapport sur l’indice d’IA de Stanford 2024

Pour comprendre la raison de cette hausse des coûts, il faut s’intéresser à la complexité toujours croissante de ces modèles. Chaque nouvelle génération dispose d’un plus grand nombre de paramètres qui permettent une compréhension et une exécution de requêtes plus complexes, davantage de données de formation et de plus grandes quantités de ressources informatiques nécessaires. En 2025 ou 2026, Amodei estime que la formation des derniers modèles coûtera entre 5 et 10 milliards de dollars. Cela empêchera toutes les entreprises, à l’exception des plus grandes entreprises et de leurs partenaires, de créer ces LLM de base.

L’IA suit l’industrie des semi-conducteurs

De cette manière, l’industrie de l’IA suit un chemin similaire à celui de l’industrie des semi-conducteurs. À la fin du XXe siècle, la plupart des fabricants de semi-conducteurs concevaient et fabriquaient leurs propres puces. À mesure que l’industrie suivait la loi de Moore – le concept qui décrit le taux exponentiel d’amélioration des performances des puces – les coûts de chaque nouvelle génération d’équipements et d’usines de fabrication pour produire les semi-conducteurs ont augmenté de manière proportionnelle.

Pour cette raison, de nombreuses entreprises ont finalement choisi d’externaliser la fabrication de leurs produits. AMD en est un bon exemple. L’entreprise avait fabriqué ses propres semi-conducteurs de pointe, mais a pris la décision en 2008 de scinder ses usines de fabrication, également appelées usines de fabrication, afin de réduire les coûts.

En raison des coûts d’investissement nécessaires, seules trois entreprises de semi-conducteurs construisent aujourd’hui des usines de production de pointe en utilisant les dernières technologies de nœuds de processus : TSMC, Intel et Samsung. TSMC a récemment déclaré qu’il en coûterait environ 20 milliards de dollars pour construire une nouvelle usine destinée à produire des semi-conducteurs de pointe. De nombreuses entreprises, dont Apple, Nvidia, Qualcomm et AMD, sous-traitent la fabrication de leurs produits à ces usines.

Implications pour l’IA – LLM et SLM

L’impact de cette augmentation des coûts varie selon le paysage de l’IA, car toutes les applications ne nécessitent pas le LLM le plus récent et le plus puissant. Cela est également vrai pour les semi-conducteurs. Par exemple, dans un ordinateur, l’unité centrale de traitement (CPU) est souvent réalisée à l’aide de la dernière technologie de semi-conducteurs haut de gamme. Cependant, il est entouré d’autres puces de mémoire ou de réseau qui fonctionnent à des vitesses plus lentes, ce qui signifie qu’il n’est pas nécessaire de les construire à l’aide de la technologie la plus rapide ou la plus puissante.

L’analogie avec l’IA ici est celle des nombreuses alternatives LLM plus petites qui sont apparues, telles que Mistral et Llama3, qui offrent plusieurs milliards de paramètres au lieu des plus d’un billion que l’on pense faire partie de GPT-4. Microsoft a récemment publié son propre petit modèle de langage (SLM), le Phi-3. Comme le rapporte The Verge, il contient 3,8 milliards de paramètres et est formé sur un ensemble de données plus petit par rapport à LLM comme GPT-4.

La taille réduite et l’ensemble de données de formation aident à contenir les coûts, même s’ils n’offrent pas le même niveau de performances que les modèles plus grands. De cette manière, ces SLM ressemblent beaucoup aux puces d’un ordinateur prenant en charge le processeur.

Néanmoins, des modèles plus petits peuvent convenir à certaines applications, en particulier celles où une connaissance complète de plusieurs domaines de données n’est pas nécessaire. Par exemple, un SLM peut être utilisé pour affiner les données et le jargon spécifiques à l’entreprise afin de fournir des réponses précises et personnalisées aux requêtes des clients. Ou bien, on pourrait être formé à l’aide de données pour un secteur ou un segment de marché spécifique ou être utilisé pour générer des rapports de recherche complets et personnalisés et des réponses aux requêtes.

Comme l’a récemment déclaré Rowan Curran, analyste principal en IA chez Forrester Research, à propos des différentes options de modèle de langage : « Vous n’avez pas besoin d’une voiture de sport tout le temps. Parfois, vous avez besoin d’une mini-fourgonnette ou d’une camionnette. Il ne s’agira pas d’une vaste classe de modèles que tout le monde utilisera pour tous les cas d’utilisation.

Peu de joueurs ajoutent du risque

Tout comme la hausse des coûts a historiquement limité le nombre d’entreprises capables de construire des semi-conducteurs haut de gamme, des pressions économiques similaires façonnent désormais le paysage du développement de grands modèles de langage. Ces coûts croissants menacent de limiter l’innovation en IA à quelques acteurs dominants, ce qui pourrait étouffer les solutions créatives plus larges et réduire la diversité dans le domaine. Des barrières à l’entrée élevées pourraient empêcher les startups et les petites entreprises de contribuer au développement de l’IA, réduisant ainsi l’éventail des idées et des applications.

Pour contrebalancer cette tendance, l’industrie doit prendre en charge des modèles de langage plus petits et spécialisés qui, comme des composants essentiels d’un système plus large, fournissent des fonctionnalités critiques et efficaces pour diverses applications de niche. La promotion des projets open Source et des efforts de collaboration est essentielle pour démocratiser le développement de l’IA, permettant à un plus large éventail de participants d’influencer cette technologie en évolution. En favorisant dès maintenant un environnement inclusif, nous pouvons garantir que l’avenir de l’IA maximise les bénéfices dans les communautés mondiales, caractérisés par un large accès et des opportunités d’innovation équitables.

Gary Grossman est vice-président exécutif de la pratique technologique chez Edelman et responsable mondial du centre d’excellence Edelman AI.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur des idées de pointe et des informations à jour, sur les meilleures pratiques et sur l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de rédiger votre propre article !

En savoir plus sur DataDecisionMakers

For Latest Updates Follow us on Google News