L’écosystème actuel de l’IA n’est utile qu’à Nvidia, prévient un …

L’économie de l’intelligence artificielle n’est viable pour personne, à l’exception du fabricant de puces GPU Nvidia. Et cela pose un gros problème pour la poursuite du développement de ce nouveau domaine, selon un éminent spécialiste de l’IA.

« L’écosystème est incroyablement malsain », a déclaré Kai-Fu Lee au début du mois. M. Lee faisait référence à la disparité des profits entre, d’une part, les fabricants d’infrastructures d’IA, dont Nvidia et Google, et, d’autre part, les développeurs d’applications et les entreprises qui sont censés utiliser l’IA pour réinventer leurs activités.

M. Lee, qui a été directeur fondateur de Microsoft Research Asia avant de travailler chez Google et Apple, a fondé sa société actuelle, Sinovation Ventures, pour financer des start-ups telles que 01.AI, qui produit un moteur de recherche appelé BeaGo.

Selon Kai-Fu Lee, spécialiste de l’IA, pour réduire le coût de l’IA générative, les entreprises doivent construire leur propre pile technologique intégrée verticalement, comme Apple l’a fait avec l’iPhone. Collective\N-[i\N]

Inverser la pyramide

Les remarques de M. Lee ont été formulées lors de la prévision Collective, une série de discussions interactives organisée par Collective, qui se présente comme une « plateforme d’IA conçue pour optimiser les ventes B2B ».

Selon M. Lee, l’écosystème actuel de l’IA se compose de Nvidia et, dans une moindre mesure, d’autres fabricants de puces tels qu’Intel et Advanced Micro Devices. Collectivement, les fabricants de puces réalisent un chiffre d’affaires annuel de 75 milliards de dollars grâce au traitement de l’IA. « L’infrastructure rapporte 10 milliards de dollars, et les applications, 5 milliards de dollars », a déclaré M. Lee. « Si nous continuons à suivre cette pyramide inversée, cela va poser un problème », a-t-il ajouté.

Actuellement, les entreprises de semi-conducteurs comme Nvidia gagnent tout l’argent. Alors que les entreprises qui devraient être les bénéficiaires ultimes – les fabricants et les utilisateurs d’applications – n’en tirent que très peu de profit. Kai-Fu Lee

La « pyramide inversée » est l’expression utilisée par M. Lee pour décrire le renversement sans précédent de l’économie classique de l’industrie technologique. Traditionnellement, les fabricants d’applications gagnent plus d’argent que les vendeurs de puces et de systèmes. Par exemple, Salesforce gagne plus d’argent avec les applications CRM que Dell et Intel, qui fabriquent respectivement les ordinateurs et les puces pour faire fonctionner les applications CRM dans le cloud.

« Lorsque les applications ne rapportent pas d’argent, le cercle vertueux ne se forme pas »

Ces écosystèmes sains, a déclaré M. Lee, « se développent de manière à ce que les applications aient plus de succès, qu’elles embarquent plus d’utilisateurs, que les applications gagnent plus d’argent, que l’infrastructure s’améliore, que les semi-conducteurs s’améliorent, et ainsi de suite ».

C’est ainsi que les choses se sont déroulées non seulement avec le cloud computing, a déclaré M. Lee, mais aussi dans l’informatique mobile. Les fortunes d’Apple et d’ARM ont produit des gagnants au « sommet de la pile », comme l’activité publicitaire de Facebook par exemple.

À l’inverse, « lorsque les applications ne rapportent pas d’argent, les utilisateurs n’en tirent pas d’avantages, le cercle vertueux ne se forme pas ».

« Le coût de l’inférence doit baisser »

Revenant à la situation présente, M. Lee déplore la nature déséquilibrée du marché de Nvidia. « Nous aimerions que Nvidia gagne plus d’argent, mais elle ne peut pas gagner plus d’argent que les applications », a-t-il déclaré, faisant référence aux applications d’IA.

« Le coût de l’inférence doit baisser pour qu’un écosystème sain puisse se développer » dit-il. « GPT-4o est merveilleux, mais il est très cher ».

Il propose une recommandation « pragmatique » qui, selon lui, pourrait résoudre cette réalité économique. Il recommande aux entreprises de construire leur propre pile technologique intégrée verticalement, comme Apple l’a fait avec l’iPhone. Le but ? Réduire considérablement le coût de l’IA générative.

Mettre les mains dans le cambouis

L’affirmation la plus frappante de M. Lee est que les entreprises qui réussiront le mieux seront celles qui construiront elles-mêmes la plupart des composants de l’IA générative. Y compris les puces. Et ce au lieu de s’en remettre à Nvidia. Il cite la façon dont Steve Jobs, d’Apple, a poussé ses équipes à construire toutes les pièces de l’iPhone, plutôt que d’attendre que le prix de la technologie baisse.

« Nous nous inspirons de l’iPhone », a déclaré M. Lee à propos des efforts de BeaGo. « Steve Jobs a fait preuve d’audace. Il a réuni une équipe de personnes issues de nombreuses disciplines, du matériel à l’iOS en passant par les pilotes et les applications », a expliqué M. Lee.

L’application BeaGo, a précisé M. Lee, n’a pas été conçue à partir de composants standard tels que GPT-40 d’OpenAI ou Llama 3 de Meta Platforms. Il s’agit plutôt d’un ensemble de matériels et de logiciels développés de concert.

Le fabricant de moteurs de recherche Rhymes AI a procédé à ses propres innovations logicielles et matérielles pour réduire de 50 fois le coût de l’inférence de la Gen AI, a déclaré M. Lee. Kai-Fu Lee

Mettre du HBM sur des GPU

« Grâce à l’intégration verticale, nous avons conçu un matériel spécial qui ne fonctionnerait pas nécessairement avec d’autres moteurs d’inférence », a expliqué M. Lee. Par exemple, bien qu’une puce GPU soit toujours utilisée pour l’élaboration des prédictions, elle a été enrichie d’une mémoire principale plus importante, appelée mémoire à large bande passante (HBM), afin d’optimiser la mise en cache des données.

Le logiciel utilisé pour BeaGo n’est « pas un modèle générique ». Sans divulguer de détails techniques, M. Lee a déclaré que son LLM « n’est pas nécessairement le meilleur modèle, mais c’est le meilleur modèle que l’on puisse former, compte tenu de l’exigence d’un moteur d’inférence qui ne fonctionne que sur ce matériel, et qui excelle sur ce matériel, et des modèles qui ont été formés en sachant que l’inférence se ferait sur ce matériel ».

La construction de l’application – y compris le matériel et la nouvelle base de données pour mettre en cache les résultats des requêtes – a coûté 100 millions de dollars à BeaGo.

« La vitesse fait toute la différence »

M. Lee a montré comment BeaGo peut trouver une réponse à une question en un clin d’œil. « La vitesse fait toute la différence », a-t-il déclaré, comparant cette situation aux premiers jours de Google, quand Google ridiculisait Yahoo !

Selon M. Lee, un modèle d’IA standard tel que Llama 3.01 405b de Meta « n’est pas près de fonctionner dans ce scénario ». Non seulement BeaGo est capable d’atteindre une plus grande vitesse d’inférence – le temps nécessaire pour renvoyer une prédiction en réponse à une requête de recherche – mais il est également beaucoup moins cher, a déclaré M. Lee.

Aujourd’hui, le coût standard de l’inférence en utilisant un service tel que GPT-4 d’OpenAI est de 4,40 dollars par million de jetons, a fait remarquer M. Lee. Cela équivaut à 57 cents par requête – « c’est 180 fois plus cher que le coût de la recherche sans IA », a expliqué M. Lee.

Kai-Fu Lee

Aller vers le centime par requête

Il comparait cela au coût standard de Google par requête, qui est estimé à trois dixièmes de centimes par requête.

Le coût pour BeaGo de servir les requêtes est « proche d’un centime par requête », a-t-il déclaré, « c’est donc incroyablement peu cher ».

L’exemple de BeaGo, selon M. Lee, montre « ce qui doit se passer pour catalyser l’écosystème des applications. Cela ne se fera pas en utilisant la toute dernière API d’OpenAI ».

Deux ans pour créer un écosystème sain

Sa vision pessimiste de l’écosystème actuel contraste avec sa conviction que l’IA générative permettra l’émergence d’un nouvel écosystème.

« Au cours des deux prochaines années, toutes les applications seront réécrites et apporteront de la valeur à l’utilisateur final », a déclaré M. Lee. « Il y aura des applications qui n’existaient pas auparavant, des appareils qui n’existaient pas auparavant, des modèles commerciaux qui n’existaient pas auparavant ».

« Il a fallu dix ans au secteur de la téléphonie mobile pour mettre en place un écosystème performant. Il a fallu 20 ans à l’industrie du PC pour le construire. Je pense qu’avec la Gen AI, il faudra peut-être deux ans » affirme t-il.

La fin des smartphones

M. Lee a fait part de ses réflexions sur les cas d’utilisation par le grand public et les entreprises si l’IA générative réussit à s’imposer. Pour le grand public, a-t-il dit, le modèle de smartphone d’aujourd’hui disparaîtra très probablement.

« L’écosystème des applications n’est que la première étape. Lorsque nous commencerons à communiquer avec des appareils par la parole, le smartphone ne sera plus vraiment adapté, car nous voulons être toujours à l’écoute, toujours actifs, ce qui n’est pas le cas des téléphones ».

Quant aux magasins d’applications « ils disparaîtront parce que les agents feront directement les choses que nous voulons ».

ERP et CRM face à l’IA, le grand problème

Selon M. Lee, l’utilisation de l’IA générative par les entreprises sera beaucoup plus difficile que dans le cas du grand public. Et ce en raison de la difficulté à trouver du ROI. « Les entreprises iront plus lentement, a-t-il ajouté, parce que les DSI ne sont pas nécessairement en phase avec l’IA et ne savent pas toujours ce qu’elle peut faire ».

De même, connecter l’IA générative aux données stockées dans les systèmes ERP et CRM, a déclaré Lee, « est très, très difficile ». Le « plus grand obstacle » à la mise en œuvre de l’IA générative, a déclaré M. Lee, « ce sont les personnes qui sont habituées à faire les choses d’une certaine manière et qui ne sont pas nécessairement prêtes à adopter » de nouvelles approches technologiques.

En supposant que ces obstacles puissent être surmontés, a déclaré M. Lee, les premiers projets d’IA tels que l’automatisation des processus de routine, sont « de bons points de départ. Mais je dirais également que ce ne sont pas les meilleurs points pour créer le plus de valeur ».