Kubernetes et GKE : de l’innovation avec l’arrivée de l’IA

Kubernetes et GKE : de l'innovation avec l'arrivée de l'IA



Si tout le monde investit dans l’IA, Google a plus de raisons que la plupart des autres d’y bruler du cash. « En 2025, nous devrons nous concentrer sur l’exploitation des avantages de la technologie de l’IA et résoudre les problèmes réels des utilisateurs » a récemment dit Sundar Pichai, le PDG de Google.

Pour concrétiser cette vision, lors de l’événement Google Cloud Next 2025 la semaine dernière, Google a annoncé des avancées substantielles dans ses offres Kubernetes et Google Kubernetes Engine (GKE). L’idée est de permettre aux développeurs de réussir avec l’IA tout en tirant parti de leurs compétences Kubernetes.

« Vos compétences et vos investissements dans Kubernetes ne sont pas seulement pertinents, ils sont votre superpuissance en matière d’IA » a dit Gabe Monroy, vice-président de Cloud Runtimes chez Google.

Quelles sont donc ces nouvelles avancées ? Jetons un coup d’œil détaillé aux fonctionnalités.

Gestion simplifiée des clusters d’IA

GKE va proposer une gestion simplifiée des clusters d’IA grâce à des outils tels que Cluster Director for GKE, anciennement Hypercompute Cluster. Cette avancée permet aux utilisateurs de déployer et de gérer de grands clusters de machines virtuelles (VM) liées à des GPU Nvidia. Cette fonctionnalité est particulièrement bénéfique pour la mise à l’échelle des charges de travail d’IA.

Un service connexe est en cours d’élaboration : Cluster Director pour Slurm. Slurm est un planificateur Linux de tâches et un gestionnaire de charge de travail open-source. Cet outil gère les clusters et planifie les tâches pour l’informatique à haute performance (HPC).

Google utilisera une interface utilisateur et des API pour provisionner et exploiter les clusters Slurm.

Déploiement optimisé des modèles d’IA

La plateforme propose des capacités de déploiement des modèles d’IA, notamment GKE Inference Quickstart et GKE Inference Gateway. Ces outils simplifient la sélection de l’infrastructure et le déploiement des modèles d’IA, en garantissant des caractéristiques de performance comparées et un équilibrage intelligent de la charge.

Monroy a déclaré : Nous observons une tendance claire à l’ère de l’IA. Des innovations étonnantes se produisent là où le calcul traditionnel interagit avec les réseaux neuronaux – ce que l’on appelle l' »inférence ».

Des entreprises à la pointe de Kubernetes et de l’IA, comme LiveX et Moloco, exécutent l’inférence de l’IA sur GKE. »

Vers une inférence rentable

GKE prend en charge l’inférence grâce à des fonctionnalités telles que la passerelle d’inférence (Inference Gateway). Monroy a déclaré que cette approche réduit les coûts de service jusqu’à 30 %, réduit la latence jusqu’à 60 % et augmente le débit de 40 % par rapport à d’autres offres Kubernetes managées et open-source. Nous devrons toutefois attendre pour voir si ces améliorations se concrétisent.

L’équilibrage de la charge en fonction du modèle est essentiel à cette stratégie. La longueur de réponse des modèles d’IA est généralement très variable d’une requête à l’autre. De sorte que la latence des réponses varie considérablement. Ainsi, les techniques traditionnelles d’équilibrage de charge telles que le round-robin peuvent s’effondrer, exacerbant la latence et sous-utilisant les ressources de l’accélérateur.

Au lieu de cela, l’Inference Gateway fournit une passerelle tenant compte des modèles, optimisée avec un équilibrage de la charge tenant compte des modèles d’IA, y compris des fonctions pour le routage vers différentes versions de modèles.

Amélioration de l’efficacité des ressources

Les améliorations portent également sur l’amélioration de l’efficacité des ressources, avec le GKE Autopilot qui propose une planification plus rapide des pods, un temps de réaction de mise à l’échelle et un dimensionnement de la capacité.

Cette technique permet de servir plus de trafic avec les mêmes ressources ou le trafic existant avec moins de ressources. Grâce à ce nouveau Autopilot, Google affirme que la capacité des clusters sera toujours adaptée.

Autopilot se compose actuellement d’un outil de configuration des clusters et d’une plateforme de calcul optimisée pour les conteneurs qui adapte automatiquement la capacité à vos charges de travail. Cette approche ne vous permet pas de dimensionner vos clusters existants sans utiliser une configuration de cluster spécifique. Pour vous aider, à partir du troisième trimestre, 2025, la plateforme de calcul optimisée pour les conteneurs d’Autopilot sera également disponible pour les clusters GKE standard sans nécessiter de configuration de cluster spécifique.

Gemini Cloud Assist

Rien ne ralentit plus l’innovation que le diagnostic et le débogage d’un problème dans votre application. Gemini Cloud Assist fournit une assistance alimentée par l’IA tout au long du cycle de vie de l’application. Et la société dévoile la preview privée de Gemini Cloud Assist Investigations, qui aide à comprendre les causes profondes et à résoudre les problèmes plus rapidement. J’aime beaucoup cette idée.

Le plus intéressant ? Assist Investigations sera disponible directement depuis la console GKE. Plus précisément, il permettra de diagnostiquer les problèmes liés aux pods et aux clusters à partir de la console GKE, même sur d’autres services Google Cloud, tels que les nœuds, IAM ou les équilibreurs de charge. Vous pourrez ainsi consulter les journaux et les erreurs de plusieurs services GKE, contrôleurs, pods et nœuds sous-jacents. Inscrivez-vous à l’aperçu privé pour tester cette fonctionnalité.

Ces développements permettent aux entreprises de tous les secteurs d’utiliser l’IA plus efficacement, en favorisant l’innovation et l’efficacité dans les opérations et les expériences des clients. Par exemple, Intuit utilise Google Cloud Document AI et Gemini pour simplifier la préparation des impôts pour des millions de clients américains de TurboTax. Reddit utilise Gemini via Vertex AI, le constructeur d’agents d’IA de Google, pour alimenter Reddit Answers, la nouvelle plateforme de conversation du site web alimentée par l’IA, qui vise à améliorer l’expérience de la page d’accueil.

Google parviendra-t-il à réaliser ces transformations basées sur l’IA ? « Il n’est pas toujours nécessaire d’être le premier, mais il faut bien exécuter et être vraiment le meilleur de sa catégorie en tant que produit. Je pense que c’est l’objectif de 2025 » disait M. Pichai en décembre dernier.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.