GPU as a Service

Cartes GPU NVIDIA dédiées  sur VM ou Kubernetes

Accédez à des GPU NVIDIA haute performance via GPU Passthrough sur vos VMs, ou via le NVIDIA GPU Operator sur vos clusters Kubernetes. Deux modes, un seul catalogue matériel.

ESSAYER GRATUITEMENT LIRE LA DOCUMENTATION

Carte GPU NVIDIA RTX Pro 6000 disponible en GPU as a Service chez Hikube

Mémoire 48 GB GDDR6

ECC Inclus

Performance INT8 733 TOPS

Performance FP32 91.6 TFLOPs

Carte GPU NVIDIA A100 pour l'entraînement de modèles IA et ML

Mémoire 80 Go HBM2e

ECC Inclus

Performance INT8 624 TOPS

Performance FP32 19.5 TFLOPs

Mémoire 80 Go HBM2e

ECC Inclus

Performance INT8 3026 TOPS

Performance Tensor TF32 756 TFLOPs

Mémoire 96 Go GDDR7

ECC Inclus

Performance FP4 3.7 PFLOPS

Performance FP32 117 TFLOPs

GPU sur Machine Virtuelle PCI Passthrough

Le GPU physique est attaché directement à la VM via VFIO-PCI. Accès complet et exclusif à l'accélérateur, avec des performances natives et sans overhead d'orchestration.

Applications nécessitant un contrôle complet du GPU
Workloads legacy ou spécialisés non conteneurisés
Environnements de développement isolés
Applications graphiques (rendu, CAO)
Prototypage et expérimentation CUDA

En savoir plus sur les VMs

Mode d’accès

PCI Passthrough exclusif

Device Plugin partagé

Isolation

1 GPU = 1 VM (dédiée)

Scheduling orchestré par K8s

Performance

Native (passthrough)

Native (device plugin)

Drivers NVIDIA

Manuels via cloud-init

Automatiques (GPU Operator)

Scaling

Vertical uniquement

Horizontal + Vertical

Partage entre workloads

Non

Oui (entre pods)

Sur une VM

Ajoutez un champ gpus[] à votre VMInstance. Le GPU est attaché en PCI Passthrough vous garantissant un accès direct et exclusif au matériel. Multi-GPU possible en répétant les entrées.

yaml

kind: VMInstance
spec:
  instanceType: u1.2xlarge
gpus:
  - name: "nvidia.com/AD102GL_L40S"

Voir le guide complet

Sur Kubernetes

Ajoutez un node group GPU à votre cluster, puis demandez le GPU dans vos pods via resources.limits. Le GPU Operator gère les drivers automatiquement.

yaml

kind: Kubernetes 
spec:  
  nodeGroups: 
    -gpu-workers:  
      instanceType: u1.xlarge  
      gpus:  
        - name: "nvidia.com/AD102GL_L40S"

Voir le guide complet

u1.xlarge

16 GB

1× L40S — développement, prototypage

u1.2xlarge

32 GB

1× A100 — fine-tuning, inférence multi-modèles

u1.4xlarge

64 GB

1-2× A100 — entraînement ML intensif

u1.8xlarge

128 GB

4× H100 — entraînement distribué, LLM

Sur une VM

bash

# Connexion SSH
virtctl ssh -i ~/.ssh/id_ed25519 ubuntu@gpu-workstation  

# Vérifier le GPU 
nvidia-smi  

# Infos détaillées nvidia-smi \  
  --query-gpu=name,memory.total,utilization.gpu \  
  --format=csv

Sur Kubernetes

yaml

# GPU exposés par node 
kubectl get nodes -o custom-columns=\
NAME:.metadata.name,\  
GPU:.status.allocatable. 'nvidia\.com/gpu'  

# Depuis un pod 
kubectl exec -it <pod-name> -- nvidia-smi  

# Ressources allouées 
kubectl describe node <gpu-node> \
| grep -A5 "Allocated resources"

Pourquoi le GPU cloud

Le GPU, accélérateur des workloads modernes

Le CPU est conçu pour exécuter des tâches séquentielles complexes. Le GPU, lui, est architecturé pour le parallélisme massif : des milliers de cœurs simples travaillant simultanément sur le même problème. C'est cette différence fondamentale qui rend le GPU indispensable pour l'entraînement de modèles de machine learning, l'inférence à grande échelle, le rendu 3D ou le calcul scientifique.

Au-delà de la puissance de calcul brute, cette architecture est ce qui permet de mener des projets IA de bout en bout : de l'expérimentation et l'entraînement des modèles jusqu'à leur mise en production et leur exploitation à grande échelle.

Acheter du matériel GPU en propre implique des cycles d'investissement longs, une gestion de capacité difficile à anticiper et une obsolescence rapide : un H100 acheté aujourd'hui sera dépassé dans 3 ans. Le modèle GPU as a Service permet d'accéder à la dernière génération de matériel NVIDIA à la demande, de scaler selon la charge réelle, et de ne payer que ce qui est consommé.

Sur Hikube, les GPU sont hébergés en Suisse et accessibles via des APIs standard, sans lock-in, sans agent propriétaire. Que votre workload tourne sur une VM isolée ou dans un cluster Kubernetes partagé entre équipes, l'accès au matériel reste identique.

La règle générale : commencez par le L40S pour tout ce qui est inférence, développement ou prototypage. Il couvre la grande majorité des cas à moindre coût. Passez à l'A100 quand vous entraînez des modèles sérieusement (fine-tuning, datasets larges). Réservez le H100 aux workloads vraiment exigeants : LLM multi-milliards de paramètres, entraînement distribué sur plusieurs nœuds.

Si votre application n'est pas conteneurisée, que vous avez besoin d'un accès complet au GPU, ou que vous prototypez, prenez une VM. C'est plus simple, plus rapide à mettre en place, et le GPU vous est entièrement dédié.

Si vous orchestrez déjà vos workloads avec Kubernetes, que vous avez besoin de scaling automatique ou de partager des ressources GPU entre plusieurs équipes, optez pour le mode Kubernetes. La complexité supplémentaire est compensée par la flexibilité.

Prévoyez 8 à 16 vCPU par GPU. Un u1.2xlarge (8 vCPU, 32 GB RAM) est un bon point de départ pour un seul GPU. Pour 4 GPU H100, montez à u1.8xlarge (32 vCPU, 128 GB RAM). Sous-dimensionner le CPU crée des goulots d'étranglement sur le prétraitement des données qui plafonnent l'utilisation GPU.

Sur VM, oui. Vous installez les drivers via un script cloud-init au premier démarrage. La doc fournit le script complet, c'est une manipulation unique.

Sur Kubernetes, non. Le GPU Operator s'en charge automatiquement sur les nœuds GPU. Vous activez l'addon dans le manifeste du cluster, le reste est transparent.

En mode VM, non. Le GPU est entièrement dédié à la VM. En mode Kubernetes, le GPU Operator permet d'allouer des GPU entiers à différents pods sur le même nœud, mais un pod ne peut pas demander une fraction de GPU. Si vous avez besoin de faire tourner plusieurs petits jobs en parallèle, l'approche Kubernetes avec plusieurs pods sur un nœud multi-GPU est la plus efficace

Cartes GPU NVIDIA dédiées  sur VM ou Kubernetes

4 GPU

2 modes

96 GB

3700 TOPS

Quatre familles NVIDIA pour chaque workload

L40S

A100

H100

RTX PRO 6000

Conseil de démarrage

GPU sur VM ou GPU sur Kubernetes

Prêt en quelques lignes de YAML

Sur une VM

Sur Kubernetes

Ratio CPU/RAM recommandé par GPU

Confirmer l'accès GPU

Sur une VM

Sur Kubernetes

Le GPU, accélérateur des workloads modernes

CPU vs GPU : le bon outil pour chaque tâche

Souveraineté des données garantie

Accès à la dernière génération sans capex

Intégration dans votre stack existante

Questions sur le GPU as a Service

Quel GPU choisir pour mon workload ?

VM ou Kubernetes, comment choisir ?

Puis-je partager un GPU entre plusieurs jobs ?

Faut-il gérer les drivers NVIDIA soi-même ?

Est-ce que je peux partager un GPU entre plusieurs jobs ?

Cartes GPU NVIDIA dédiées sur VM ou Kubernetes

4 GPU

2 modes

96 GB

3700 TOPS

Quatre familles NVIDIA pour chaque workload

L40S

A100

H100

RTX PRO 6000

Conseil de démarrage

GPU sur VM ou GPU sur Kubernetes

Prêt en quelques lignes de YAML

Sur une VM

Sur Kubernetes

Ratio CPU/RAM recommandé par GPU

Confirmer l'accès GPU

Sur une VM

Sur Kubernetes

Le GPU, accélérateur des workloads modernes

CPU vs GPU : le bon outil pour chaque tâche

Souveraineté des données garantie

Accès à la dernière génération sans capex

Intégration dans votre stack existante

Questions sur le GPU as a Service

Quel GPU choisir pour mon workload ?

VM ou Kubernetes, comment choisir ?

Puis-je partager un GPU entre plusieurs jobs ?

Faut-il gérer les drivers NVIDIA soi-même ?

Est-ce que je peux partager un GPU entre plusieurs jobs ?

Cartes GPU NVIDIA dédiées  sur VM ou Kubernetes

RTX PRO 6000 

CPU vs GPU : le bon outil pour chaque tâche 

Souveraineté des données garantie 

Accès à la dernière génération sans capex 

Intégration dans votre stack existante