Le marché de l’intelligence artificielle – et l’ensemble du marché boursier – a été ébranlé lundi par la popularité soudaine de DeepSeek, le LLM open source développé par un fonds basé en Chine, qui a surpassé les meilleurs modèles d’OpenAI pour certaines tâches tout en coûtant beaucoup moins cher à faire tourner.
Le succès de R1 (le modèle mis en avant par DeepSeek), met en évidence un changement radical dans l’IA. Il pourrait permettre aux petites structures de créer des modèles compétitifs.
Pourquoi DeepSeek fonctionne-t-il si bien ?
DeepSeek utilise une approche du deep learning visant à tirer le meilleur parti des puces informatiques. Comment ? En exploitant un phénomène connu sous le nom de « sparsity » (rareté).
La rareté se présente sous de nombreuses formes. Parfois, il s’agit d’éliminer des parties des données utilisées par l’intelligence artificielle lorsque ces données n’ont pas d’incidence matérielle sur les résultats du modèle d’intelligence artificielle.
Dans d’autres cas, il s’agit de supprimer des parties entières d’un réseau neuronal si cela n’a pas d’incidence sur le résultat final.
DeepSeek est un exemple de ce dernier cas : l’utilisation parcimonieuse des réseaux neuronaux.
La principale avancée identifiée par la plupart des chercheurs dans DeepSeek est la possibilité d’activer et de désactiver de grandes parties des « poids » ou des « paramètres » d’un réseau neuronal. Les paramètres déterminent la manière dont un réseau neuronal peut transformer les données d’entrée (le prompt que vous tapez) en texte ou en images. Les paramètres ont un impact direct sur la durée des calculs. Plus il y a de paramètres, plus l’effort de calcul est important.
La parcimonie (sparsity) et son rôle dans l’IA
La possibilité de n’utiliser qu’une partie des paramètres totaux d’un grand modèle de langage et d’ignorer le reste est un exemple de rareté, ou parcimonie. Cette rareté peut avoir un impact majeur sur l’importance du budget de calcul d’un modèle d’IA.
Dans un rapport publié la semaine dernière, des chercheurs en IA d’Apple expliquent clairement comment DeepSeek et d’autres approches similaires utilisent cela pour obtenir de meilleurs résultats avec une puissance de calcul donnée.
Apple n’a aucun lien avec DeepSeek. Mais la société effectue régulièrement ses propres recherches en matière d’IA.
Dans l’article intitulé « Parameters vs FLOPs : Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models » publié sur arXiv, Samir Abnar d’Apple étudie comment les performances varient lorsque est exploité la parcimonie. Et ce en désactivant certaines parties du réseau neuronal.
A la recherche du niveau optimal
Abnar et son équipe ont mené leurs études à l’aide d’une bibliothèque de codes publiée en 2023 par des chercheurs en IA de Microsoft, Google et Stanford, appelée MegaBlocks. Ils précisent toutefois que leurs travaux sont applicables à DeepSeek et à d’autres innovations récentes.
Abnar et son équipe se demandent s’il existe un niveau « optimal » de parcimonie dans DeepSeek. C’est-à-dire si, pour une puissance de calcul donnée, il existe un nombre optimal de ces poids neuronaux à activer ou à désactiver.
Il s’avère qu’il est possible de quantifier pleinement la parcimonie (sparsity) comme le pourcentage de tous les poids neuronaux que l’on peut désactiver. Ce pourcentage s’approchant mais n’égalant jamais 100 % du réseau neuronal « inactif ».
Les graphiques montrent que pour un réseau neuronal donné, avec un budget informatique donné, il existe une proportion optimale du réseau neuronal qui peut être désactivée pour atteindre un certain niveau de précision. Il s’agit de la même règle économique empirique qui s’applique à chaque nouvelle génération de PC. Soit un meilleur résultat pour le même prix, soit le même résultat pour moins d’argent. Apple
Il s’avère que pour un réseau neuronal d’une taille donnée en termes de paramètres totaux, avec une quantité de calcul donnée, il faut de moins en moins de paramètres pour obtenir la même précision ou une meilleure précision sur un test de référence donné en matière d’IA, comme les mathématiques ou la réponse à des questions.
En d’autres termes, quelle que soit votre puissance de calcul, vous pouvez de plus en plus désactiver certaines parties du réseau neuronal et obtenir des résultats identiques ou meilleurs.
Optimiser l’IA avec moins de paramètres
Comme l’expliquent Abnar et son équipe en termes techniques, « l’augmentation de la sparsity tout en augmentant proportionnellement le nombre total de paramètres conduit systématiquement à une perte de pré-entraînement plus faible, même lorsque l’on est contraint par un budget de calcul d’entraînement fixe ». Le terme « perte de pré-entraînement » est le terme d’intelligence artificielle qui désigne le degré de précision d’un réseau neuronal. Une perte de préformation plus faible signifie des résultats plus précis.
Cette découverte explique comment DeepSeek peut disposer d’une puissance de calcul moindre mais obtenir des résultats identiques, voire meilleurs, simplement en désactivant de plus en plus de parties du réseau.
La sparité (tentative de franciser sparsity) est une sorte de cadran magique qui permet de trouver la meilleure adéquation entre le modèle d’IA que vous avez et la puissance de calcul dont vous disposez.
Il s’agit de la même règle économique qui s’applique à chaque nouvelle génération de PC : soit un meilleur résultat pour le même prix, soit le même résultat pour moins d’argent.
Il y a d’autres détails à prendre en compte à propos de DeepSeek. Par exemple, une autre innovation de DeepSeek, comme l’explique joliment Ege Erdil d’Epoch AI, est une astuce mathématique appelée « attention latente multi-têtes ». Sans entrer dans les détails, l’attention latente multi-têtes est utilisée pour compresser l’un des plus gros consommateurs de mémoire et de bande passante. Et il s’agit du cache mémoire qui contient le texte le plus récemment saisi d’un prompt.
L’avenir de la recherche sur la sparsity
Les détails mis à part, le point le plus important dans tout cela est que la rareté en tant que phénomène n’est pas nouvelle dans la recherche en IA.
Les chercheurs en IA montrent depuis de nombreuses années que l’élimination de certaines parties d’un réseau neuronal permet d’obtenir une précision comparable, voire supérieure, avec moins d’efforts.
Intel, le concurrent de Nvidia, a depuis des années identifié le sparsity comme une voie de recherche pour changer l’état de l’art dans ce domaine. Les approches des start-ups basées sur la rareté ont également obtenu des scores élevés dans les tests de référence de l’industrie au cours des dernières années.
Le cadran magique de la sparsité ne se contente pas de réduire les coûts de calcul, comme dans le cas de DeepSeek, il fonctionne aussi dans l’autre sens : il peut aussi rendre plus efficaces des ordinateurs d’IA de plus en plus gros. Apple
En théorie, vous pouvez créer des modèles de plus en plus grands, sur des ordinateurs de plus en plus grands, et en avoir pour votre argent
Le cadran magique de la parcimonie est profond parce qu’il n’améliore pas seulement l’économie pour un petit budget, comme dans le cas de DeepSeek. Oui, il fonctionne aussi dans l’autre sens : Dépensez plus, et vous obtiendrez des avantages encore plus importants grâce à la sparsity. Abnar et son équipe ont constaté que plus vous augmentez votre puissance de calcul, plus la précision du modèle d’IA s’améliore.
Selon eux, « à mesure que la sparsity augmente, la perte de validation diminue pour tous les budgets de calcul, les budgets les plus importants entraînant des pertes moindres à chaque niveau de densité ».
En théorie, vous pouvez donc créer des modèles de plus en plus grands, sur des ordinateurs de plus en plus grands, et en avoir pour votre argent.
Tous ces travaux sur la sparsité signifient que DeepSeek n’est qu’un exemple d’un vaste domaine de recherche que de nombreux laboratoires suivent déjà. Et que beaucoup d’autres vont maintenant s’efforcer de reproduire le succès de DeepSeek.