GPU as a Service

Dedizierte NVIDIA GPU-Karten über VMs oder Kubernetes.

Greifen Sie über GPU Passthrough auf Ihre VMs oder über den NVIDIA GPU Operator auf Ihre Kubernetes Cluster auf hochleistungsfähige NVIDIA Grafikprozessoren zu. Zwei Modi, ein Hardwarekatalog.

EINE DEMO ANFORDERN WIRD DIE DOKUMENTATION LESEN

NVIDIA RTX Pro 6000 GPU-Karte im Hikube GPU as a Service

Speicher 48 GB GDDR6

ECC Inklusive

INT8-Leistung 733 TOPS

Leistung FP32 91.6 TFLOPs

NVIDIA A100 GPU-Karte für KI- und ML-Modelltraining

Speicher 80 GB HBM2e

ECC Inklusive

INT8-Leistung 624 TOPS

Leistung FP32 19.5 TFLOPs

Speicher 80 GB HBM2e

ECC Inklusive

INT8-Leistung 3026 TOPS

Performance Tensor TF32 756 TFLOPs

Speicher 96 GB GDDR7

ECC Inklusive

Leistung FP4 3.7 PFLOPS

Leistung FP32 117 TFLOPs

GPU auf Virtual Machine PCI Passthrough

Der physische Grafikprozessor wird über VFIO-PCI direkt an die VM angehängt. Vollständiger und exklusiver Zugriff auf den Beschleuniger - native Leistung, kein Orchestrierungs-Overhead.

Anwendungen, die eine vollständige Kontrolle über den Grafikprozessor erfordern.
Nicht containerisierte Legacy- oder spezialisierte Workloads.
Isolierte Entwicklungsumgebungen
Grafische Anwendungen (Rendering, CAD).
CUDA-Prototyping und -Experimente

Mehr über Virtuelle Maschinen erfahren

Grafikprozessoren auf Kubernetes GPU Operator

GPUs werden über das NVIDIA Device Plugin, das vom GPU Operator verwaltet wird, den Pods ausgesetzt. Von Kubernetes orchestriertes Scheduling - gemeinsame Nutzung durch Pods, Autoscaling, ML-Pipelines.

Containered AI/ML Workloads.
Automatische Skalierung von GPU-Anwendungen.
Gemeinsame Nutzung von GPU-Ressourcen zwischen Pods.
Parallele und verteilte Jobs
Komplexe ML/AI-Pipelines

Mehr über Kubernetes erfahren

Art des Zugriffs

Exklusive PCI Passthrough

Device Plugin geteilt

Isolierung

1 Grafikprozessor = 1 VM (dediziert)

Scheduling orchestriert von K8s

Leistung

Native (passthrough)

Native (device plugin)

NVIDIA-Treiber

Handbücher über cloud-init

Automatisch (GPU Operator)

Scaling

Nur vertikal

Horizontal + Vertikal

Sharing zwischen Workloads

Nicht

Ja (zwischen Pods)

Auf einer VM

Fügen Sie ein gpus[]-Feld zu Ihrer VMInstance hinzu. Der Grafikprozessor wird per PCI Passthrough angehängt, was Ihnen einen direkten und exklusiven Zugriff auf die Hardware garantiert. Multi-GPUs sind durch Wiederholung der Eingaben möglich.

yaml

kind: VMInstance
spec:
instanceType: u1.2xlarge
gpus:
- name: "nvidia.com/AD102GL_L40S".

Vollständigen Leitfaden ansehen

Auf Kubernetes

Fügen Sie Ihrem Cluster einen GPU Group Node hinzu und fordern Sie die GPU in Ihren Pods über resources.limits an. Der GPU Operator verwaltet die Treiber automatisch.

yaml

kind: Kubernetes
spec: 
 nodeGroups: 
 -gpu-workers: 
 instanceType: u1.xlarge 
 gpus: 
 - name: "nvidia.com/AD102GL_L40S".

Vollständigen Leitfaden ansehen

u1.xlarge

16 GB

1× L40S - Entwicklung, Prototypenbau

u1.2xbreit

32 GB

1× A100 - Fine-Tuning, Multi-Model-Inference

u1.4xbreit

64 GB

1-2× A100 - intensives ML-Training

u1.8xbreit

128 GB

4× H100 - verteiltes Training, LLM

Auf einer VM

bash

# SSH-Verbindung
virtctl ssh -i ~/.ssh/id_ed25519 ubuntu@gpu-workstation

 # GPU überprüfen
 nvidia-smi

# Detaillierte Infos nvidia-smi \ 
 --query-gpu=name,memory.total,utilization.gpu \ 
 --format=csv

Auf Kubernetes

yaml

# GPUs, die von Node ausgestellt werden
kubectl get nodes -o custom-columns=\
NAME:.metadata.name,\?
GPU:.status.allocatable. 'nvidia.com/gpu'.

# Von einem Pod aus
kubectl exec -it <pod-name> -- nvidia-smi

# Zugewiesene Ressourcen
kubectl describe node <gpu-node> \
| grep -A5 "Allocated resources"

Warum die GPU-Cloud

Der Grafikprozessor als Beschleuniger für moderne Workloads.

Die CPU ist darauf ausgelegt, komplexe sequenzielle Aufgaben auszuführen. Der Grafikprozessor hingegen ist für massiven Parallelismus architektonisiert: Tausende von einzelnen Kernen arbeiten gleichzeitig an demselben Problem. Es ist dieser grundlegende Unterschied, der den Grafikprozessor für das Training von Machine-Learning-Modellen, groß angelegte Inferenzen, 3D-Rendering oder wissenschaftliches Rechnen unverzichtbar macht.

Über die reine Rechenleistung hinaus ermöglicht diese Architektur es, AI-Projekte end-to-end umzusetzen: von der Experimentierphase und dem Training der Modelle bis hin zu ihrer Produktivsetzung und ihrem Betrieb im großen Maßstab.

Der Kauf eigener GPU-Hardware bedeutet lange Investitionszyklen, schwer vorhersehbares Kapazitätsmanagement und schnelle Veralterung: Ein heute gekaufter H100 wird in drei Jahren veraltet sein. Das Modell GPU as a Service ermöglicht den Zugriff auf die neueste Generation von NVIDIA-Hardware bei Bedarf, skaliert nach der tatsächlichen Auslastung und bezahlt nur für das, was verbraucht wird.

Auf Hikube werden die Grafikprozessoren in der Schweiz gehostet und sind über Standard-APIs zugänglich, ohne Lock-in, ohne proprietäre Agenten. Ob Ihr Workload auf einer isolierten VM oder in einem von Teams gemeinsam genutzten Kubernetes-Cluster läuft, der Zugriff auf die Hardware bleibt gleich.

Die allgemeine Regel: Beginnen Sie mit dem L40S, wenn es um Inferenz, Entwicklung oder Prototyping geht. Er deckt die überwiegende Mehrheit der Fälle zu geringen Kosten ab. Wechseln Sie auf denA100, wenn Sie Modelle ernsthaft trainieren (Fine-Tuning, große Datenmengen). Reservieren Sie den H100 für wirklich anspruchsvolle Workloads: Multi-Milliarden-Parameter-LLMs, verteiltes Training über mehrere Knoten.

Wenn Ihre Anwendung nicht containerisiert ist, Sie vollen Zugriff auf den Grafikprozessor benötigen oder prototypisch arbeiten: nehmen Sie eine Virtuelle Maschinen. Das ist einfacher, schneller zu implementieren und der Grafikprozessor steht Ihnen vollständig zur Verfügung.

Wenn Sie Ihre Workloads bereits mit Kubernetes orchestrieren, automatisches Scaling benötigen oder GPU-Ressourcen zwischen mehreren Teams aufteilen müssen: entscheiden Sie sich für Kubernetes. Die zusätzliche Komplexität wird durch Flexibilität ausgeglichen.

Planen Sie 8 bis 16 vCPUs pro Grafikprozessor ein. Ein u1.2xlarge (8 vCPUs, 32 GB RAM) ist ein guter Ausgangspunkt für einen einzelnen Grafikprozessor. Für vier H100-Grafikprozessoren sollten Sie auf u1.8xlarge (32 vCPUs, 128 GB RAM) erhöhen. Eine Unterdimensionierung der CPU führt zu Engpässen bei der Datenvorverarbeitung, die die GPU-Auslastung deckeln.

Auf VM, ja. Sie installieren die Treiber über ein cloud-init-Skript beim ersten Start. Die Doku liefert das komplette Skript, es ist eine einmalige Manipulation.

Auf Kubernetes, nein. Der GPU Operator erledigt dies automatisch auf den GPU-Knoten. Sie aktivieren das Addon im Cluster-Manifest, der Rest ist transparent.

Im VM-Modus nicht. Der Grafikprozessor ist vollständig der VM gewidmet. Im Kubernetes-Modus können mit dem GPU Operator ganze GPUs verschiedenen Pods auf demselben Knoten zugewiesen werden, aber ein Pod kann nicht nur einen Bruchteil einer GPU anfordern. Wenn Sie mehrere kleine Jobs parallel laufen lassen müssen, ist der Kubernetes-Ansatz mit mehreren Pods auf einem Multi-GPU-Knoten am effizientesten.

Dedizierte NVIDIA GPU-Karten über VMs oder Kubernetes.

4 GPU-Karten

2 Modi

96 GB

3700 TOPS

Vier NVIDIA-Familien für jeden Workload.

L40S

A100

H100

RTX PRO 6000

Ratschlag für den Start

Grafikprozessor auf VM oder Grafikprozessor auf Kubernetes.

Mit ein paar Zeilen YAML bereit

Auf einer VM

Auf Kubernetes

Empfohlenes CPU/RAM-Verhältnis pro Grafikprozessor.

GPU-Zugang bestätigen

Auf einer VM

Auf Kubernetes

Der Grafikprozessor als Beschleuniger für moderne Workloads.

CPU vs. GPU: Das richtige Werkzeug für jede Aufgabe

Datensouveränität garantiert

Zugang zur neuesten Generation ohne Capex

Integration in Ihren bestehenden Stack

Fragen zu GPU as a Service

Welchen Grafikprozessor sollte ich für meinen Workload auswählen?

VM oder Kubernetes, wie soll man sich entscheiden?

Kann ich einen Grafikprozessor zwischen mehreren Jobs teilen?

Muss man die NVIDIA-Treiber selbst verwalten?

Kann ich einen Grafikprozessor zwischen mehreren Jobs teilen?