GPU as a Service

Dedizierte NVIDIA GPU-Karten über VMs oder Kubernetes.

Greifen Sie über GPU Passthrough auf Ihren VMs oder über den NVIDIA GPU Operator auf Ihren Kubernetes-Cluster auf hochleistungsfähige NVIDIA GPUs zu. Zwei Modi, ein Hardwarekatalog.

KOSTENLOS STARTEN DOKUMENTATION LESEN

Speicher 48 GB GDDR6

ECC Inklusive

INT8-Leistung 733 TOPS

Leistung FP32 91.6 TFLOPs

Speicher 80 GB HBM2e

ECC Inklusive

INT8-Leistung 624 TOPS

Leistung FP32 19.5 TFLOPs

Speicher 80 GB HBM2e

ECC Inklusive

INT8-Leistung 3026 TOPS

Performance Tensor TF32 756 TFLOPs

Speicher 96 GB GDDR7

ECC Inklusive

Leistung FP4 3.7 PFLOPS

Leistung FP32 117 TFLOPs

GPU auf Virtual Machine PCI Passthrough

Die physische GPU wird über VFIO-PCI direkt an die VM angehängt. Vollständiger, exklusiver Zugriff auf den Beschleuniger - native Leistung, ohne Orchestrierungs-Overhead.

Anwendungen, die eine volle Kontrolle über den GPU erfordern.
Nicht containerisierte Legacy- oder spezialisierte Workloads.
Isolierte Entwicklungsumgebungen
Grafikanwendungen (Rendering, CAD).
CUDA-Prototyping und -Experimente

Mehr über Virtuelle Maschinen erfahren

Zugriffsart

Exklusiver PCI Passthrough

Geteiltes Device Plugin

Isolierung

1 GPU = 1 VM (dediziert)

Von K8s orchestriertes Scheduling

Leistung

Native (passthrough)

Native (Device Plugin)

NVIDIA-Treiber

Manuell über cloud-init

Automatisch (GPU Operator)

Scaling

Nur vertikal

Horizontal + Vertikal

Sharing zwischen Workloads

Nein

Ja (zwischen Pods)

Setup-Zeit

~5 Minuten

~10 Minuten

Komplexität

Einfach

Mäßig

Auf einer VM

Fügen Sie ein gpus[]-Feld zu Ihrer Auf einer VM - Fugen Sie Ihrer VMInstance ein gpus[]-Feld hinzu. Die GPU wird per PCI Passthrough angehangt und gibt Ihnen direkten, exklusiven Hardwarezugriff. Multi-GPU ist durch Wiederholen der Eintrage moglich.

yaml

kind: VMInstance
spec:
instanceType: u1.2xlarge
gpus:
- name: "nvidia.com/AD102GL_L40S".

Vollständigen Leitfaden ansehen

Auf Kubernetes

Fügen Sie Ihrem Cluster einen GPU Nodegroup hinzu und fordern Sie die GPU in Ihren Pods über resources.limits an. Der GPU Operator verwaltet die Treiber automatisch.

yaml

kind: Kubernetes
spec: 
 nodeGroups: 
 -gpu-workers: 
 instanceType: u1.xlarge 
 gpus: 
 - name: "nvidia.com/AD102GL_L40S".

Vollständigen Leitfaden ansehen

u1.xlarge

16 GB

1× L40S - Entwicklung, Prototyping

u1.2xbreit

32 GB

1× A100 - Fine-Tuning, Multi-Model-Inferenz

u1.4xbreit

64 GB

1-2× A100 - intensives ML-Training

u1.8xbreit

128 GB

4× H100 - verteiltes Training, LLMs

Auf einer VM

bash

# SSH-Verbindung
virtctl ssh -i ~/.ssh/id_ed25519 ubuntu@gpu-workstation

 # GPU überprüfen
 nvidia-smi

# Detaillierte Infos nvidia-smi \ 
 --query-gpu=name,memory.total,utilization.gpu \ 
 --format=csv

Auf Kubernetes

yaml

# GPUs, die von Node ausgestellt werden
kubectl get nodes -o custom-columns=\
NAME:.metadata.name,\?
GPU:.status.allocatable. 'nvidia.com/gpu'.

# Von einem Pod aus
kubectl exec -it <pod-name> -- nvidia-smi

# Zugewiesene Ressourcen
kubectl describe node <gpu-node> \
| grep -A5 "Allocated resources"

Warum GPU AUS DER CLOUD

Die GPU, Beschleuniger moderner Workloads.

Die CPU ist darauf ausgelegt, komplexe sequenzielle Aufgaben auszufuhren. Die GPU hingegen ist für massive Parallelitat konzipiert: Tausende einfacher Kerne, die gleichzeitig am selben Problem arbeiten. Genau dieser grundlegende Unterschied macht die GPU unverzichtbar für das Training von Machine-Learning-Modellen, gross angelegte Inferenz, 3D-Rendering oder wissenschaftliches Rechnen.

Eigene GPU-Hardware zu kaufen bedeutet lange Investitionszyklen, schwer planbare Kapazitat und schnelle Veralterung: Ein heute gekaufter H100 ist in 3 Jahren uberholt. Das Modell GPU as a Service bietet On-Demand-Zugriff auf die neueste Generation von NVIDIA-Hardware, skaliert nach tatsachlicher Last und lasst Sie nur fur den tatsachlichen Verbrauch zahlen.

Auf Hikube werden die GPUs in der Schweiz gehostet und sind uber Standard-APIs zugänglich, ohne Lock-in, ohne proprietären Agenten. Ob Ihr Workload auf einer isolierten VM oder in einem teamubergreifend genutzten Kubernetes-Cluster lauft - der Hardwarezugriff bleibt identisch.

Faustregel: Beginnen Sie mit der L40S fur alles rund um Inferenz, Entwicklung oder Prototyping - sie deckt die grosse Mehrheit der Falle kostengünstig ab. Wechseln Sie zur A100, wenn Sie Modelle ernsthaft trainieren (Fine-Tuning, grosse Datasets). Reservieren Sie die H100 fur wirklich anspruchsvolle Workloads: LLMs mit mehreren Milliarden Parametern, verteiltes Training über mehrere Knoten.

Wenn Ihre Anwendung nicht containerisiert ist, Sie vollen Zugriff auf den Grafikprozessor benötigen oder prototypisch arbeiten: nehmen Sie eine Virtuelle Maschinen. Das ist einfacher, schneller zu implementieren und der Grafikprozessor steht Ihnen vollständig zur Verfügung.

Wenn Sie Ihre Workloads bereits mit Kubernetes orchestrieren, automatisches Scaling benötigen oder GPU-Ressourcen zwischen mehreren Teams aufteilen müssen: entscheiden Sie sich für Kubernetes. Die zusätzliche Komplexität wird durch Flexibilität ausgeglichen.

Planen Sie 8 bis 16 vCPUs pro Grafikprozessor ein. Ein u1.2xlarge (8 vCPUs, 32 GB RAM) ist ein guter Ausgangspunkt für einen einzelnen Grafikprozessor. Für vier H100-Grafikprozessoren sollten Sie auf u1.8xlarge (32 vCPUs, 128 GB RAM) erhöhen. Eine Unterdimensionierung der CPU führt zu Engpässen bei der Datenvorverarbeitung, die die GPU-Auslastung deckeln.

Auf VM, ja. Sie installieren die Treiber über ein cloud-init-Skript beim ersten Start. Die Doku liefert das komplette Skript, es ist eine einmalige Manipulation.

Auf Kubernetes, nein. Der GPU Operator erledigt dies automatisch auf den GPU-Knoten. Sie aktivieren das Addon im Cluster-Manifest, der Rest ist transparent.

Im VM-Modus nein: Der GPU ist vollständig der VM gewidmet. Im Kubernetes-Modus kan der GPU Operator ganze GPUs verschiedenen Pods auf demselben Knoten zugewiesen, aber ein Pod kann keinen Bruchteil einer GPU anfordern. Um mehrere kleine Jobs parallel laufen zu lassen, ist der Kubernetes-Ansatz mit mehreren Pods auf einem Multi-GPU-Knoten am effizientesten.

Dedizierte NVIDIA GPU-Karten über VMs oder Kubernetes.

4 GPU-Karten

2 Modi

96 GB

3700 TOPS

Vier NVIDIA-Familien für jeden Workload.

L40S

A100

H100

RTX PRO 6000

Tipp für den Start

GPU auf VM oder GPU auf Kubernetes.

Mit wenigen Zeilen YAML bereit

Auf einer VM

Auf Kubernetes

Empfohlenes CPU/RAM-Verhältnis pro GPU.

GPU-Zugriff bestätigen

Auf einer VM

Auf Kubernetes

Die GPU, Beschleuniger moderner Workloads.

CPU vs. GPU: Das richtige Werkzeug für jede Aufgabe

Garantierte Datensouveränität

Zugang zur neuesten Generation ohne Capex

Integration in Ihren bestehenden Stack

Fragen zu GPU as a Service

Welche GPU soll ich fur meinen Workload wahlen?

VM oder Kubernetes - wie entscheide ich mich?

Wie dimensioniere ich CPU/RAM rund um eine GPU?

Muss ich die NVIDIA-Treiber selbst verwalten?

Kann ich eine GPU fur mehrere Jobs teilen?