La recette gagnante des agents d’IA seraient les « petits modèles …

Si vous souhaitez intégrer des agents d’IA dans vos flux de travail, ne gaspillez pas la précieuse puissance de calcul des grands modèles de langage (LLM) sur ces systèmes.

C’est l’avis d’un groupe de chercheurs de Nvidia, qui a récemment plaidé en faveur des « petits modèles de langage », ou SLM (Small Langage Model), notant que si les LLM ont été les moteurs de l’IA générative jusqu’à présent, ils sont probablement surdimensionnés pour prendre en charge des agents d’IA plus ciblés. En revanche, les SLM pourraient constituer une approche plus intelligente.

L’équipe de Nvidia explique dans son rapport que l’essor des systèmes d’IA agentique s’accompagnera d’une multitude d’applications qui utiliseront des modèles de langage pour effectuer quelques tâches spécialisées de manière répétée, sans trop de variations.

Réduire les coûts de l’IA

Les SLM « sont suffisamment puissants, intrinsèquement plus adaptés et nécessairement plus économiques pour de nombreuses invocations dans les systèmes agentiques », indique le rapport. Ils pourraient donc jouer un rôle important dans l’avenir de l’IA agentique.

Dans les situations « où les capacités de conversation à usage général sont essentielles, les systèmes agentiques hétérogènes – des agents invoquant plusieurs modèles différents – sont le choix naturel », poursuivent les chercheurs.

Les SLM pourraient également contribuer à réduire les coûts de l’IA. L’utilisation de LLM pour les agents d’IA peut être coûteuse et ne correspond pas toujours à la plupart des cas d’utilisation de la technologie, d’un point de vue fonctionnel.

Marché de l’API LLM et de l’infrastructure cloud d’hébergement : 63 milliards de dollars

« Le fait d’insister sur les LLM pour toutes ces tâches reflète une mauvaise répartition des ressources informatiques, qui est économiquement inefficace et écologiquement insoutenable à grande échelle », indique le rapport.

Dans de nombreux cas, les agents d’IA communiquent avec des points d’extrémité d’API LLM choisis en faisant des demandes à l’infrastructure centralisée dans le cloud qui héberge ces modèles, selon le rapport. Ces points d’accès à l’API LLM « sont spécifiquement conçus pour répondre à un grand nombre de demandes diverses à l’aide d’un LLM généraliste ».

Ce modèle opérationnel basé sur les LLM est profondément enraciné. Et il y a aussi un aspect financier à l’œuvre. Le rapport estime à 63 milliards de dollars le marché de l’API LLM et de l’infrastructure cloud d’hébergement.

Les LLM sont trop lourds

« Ce modèle opérationnel restera la pierre angulaire de l’industrie sans aucune modification substantielle, et l’investissement initial important produira des retours comparables aux solutions logicielles et Internet traditionnelles dans un délai de trois à quatre ans », indique le rapport.

Au fur et à mesure que les organisations déploient des agents d’IA dans un large éventail de fonctions, elles reconnaîtront que les LLM sont trop lourds pour ces systèmes, explique Virginia Dignum, professeur d’IA responsable à l’université d’Umea. Dans la plupart des cas, « l’idée consiste à construire une interface active au-dessus d’un grand modèle de langage », a-t-elle déclaré.

Cette vision de l’IA agentique construite sur des LLM pose des problèmes. Tout d’abord à cause du gaspillage.

Collaboration multi-agents : la voie la plus efficace pour l’IA agentique

« Les LLM sont formés à partir d’énormes quantités de données et de calculs afin de pouvoir traiter des questions linguistiques générales. Un agent… est censé répondre à des questions spécifiques. Vous n’attendez pas de votre agent immobilier qu’il vous parle de philosophie, ou de votre agent de voyage qu’il soit capable de produire des œuvres d’art », dit-elle. « Je vois un énorme gaspillage potentiel de données et de calculs dans la construction de tels agents au-dessus des LLM ».

La collaboration multi-agents est la voie la plus efficace pour obtenir des résultats de l’IA agentique.

« Ce qui est essentiel, ce sont les applications basées sur la collaboration entre de nombreux agents plus petits qui utilisent moins de données et de formation, mais qui peuvent obtenir davantage en se combinant avec d’autres agents », dit M. Dignum. « Une approche distribuée – moins lourde en termes de calcul, plus inclusive et plus à même de prendre en compte les différences entre les contextes et les cultures.

3 conseils pour déployer les SLM

L’équipe de Nvidia propose les suggestions suivantes pour le déploiement des SLM :

Envisager les coûts : Les organisations devraient envisager d’adopter de petits modèles de langage pour les applications agentiques afin de réduire la latence, la consommation d’énergie et les coûts d’infrastructure, en particulier dans les scénarios où l’inférence en temps réel ou sur l’appareil est nécessaire.
Envisager une conception modulaire : Utiliser les SLM pour les tâches routinières et restreintes et réserver les LLM pour les raisonnements plus complexes, afin d’améliorer l’efficacité et la facilité de maintenance.
Envisager la spécialisation : Tirer parti de l’agilité des SLM en les adaptant à des tâches spécifiques, ce qui permet d’accélérer les cycles d’itération et de faciliter l’adaptation à l’évolution des cas d’utilisation et des exigences.

Source link

Réduire les coûts de l’IA

Marché de l’API LLM et de l’infrastructure cloud d’hébergement : 63 milliards de dollars

Les LLM sont trop lourds

Collaboration multi-agents : la voie la plus efficace pour l’IA agentique

3 conseils pour déployer les SLM

Laisser un commentaire Annuler la réponse