Die weltweit führende KI-Computing-Plattform.
KI, komplexe Simulationen und massive Datensätze erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die KI-Supercomputing-Plattform NVIDIA HGX™ vereint die volle Leistung von NVIDIA Grafikprozessoren, NVLink®, NVIDIA-Netzwerken und vollständig optimiertem KI- und High-Performance-Computing (HPC) Software-Stacks, um die höchste Anwendungsleistung bereitzustellen und die Zeit zum Erhalt von Einblicken so weit wie möglich zu verkürzen.
Die NVIDIA HGX B200 und HGX B100 integrieren NVIDIA Blackwell Tensor-Core-Grafikprozessoren mit High-Speed-Verbindungen und führen das Rechenzentrum so in ein neues Zeitalter des beschleunigten Computings und der generativen KI. Blackwell-basierte HGX-Systeme sind eine führende beschleunigte Scale-up-Plattform mit bis zu 15-mal mehr Inferenzleistung als die Vorgängergeneration. Sie sind auf die anspruchsvollsten generativen KI-, Datenanalyse- und HPC-Workloads ausgelegt.
NVIDIA HGX umfasst fortschrittliche Netzwerkoptionen mit Geschwindigkeiten von bis zu 400 Gigabit pro Sekunde (Gb/s) und nutzen NVIDIA Quantum-2 InfiniBand und Spectrum™-X Ethernet für höchste KI-Leistung. HGX umfasst außerdem NVIDIA® BlueField®-3-Datenverarbeitungseinheiten (DPUs), die Cloud-Networking, Composable Storage, Zero-Trust-Security und Grafikprozessor-Computing-Elastizität in Hyperscale-KI-Clouds ermöglichen.
Die projizierte Leistung kann Änderungen unterliegen. Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) in Echtzeit, erste Token-Latenz (FTL) = 5 s, Eingabesequenzlänge = 32.768, Ausgabesequenzlänge = 1.028, 8x Acht-Wege-NVIDIA HGX™ H100 Grafikprozessoren mit Luftkühlung vs. 1x Acht-Wege-HGX B200 mit Luftkühlung, laut Grafikprozessor-Leistungsvergleich.
HGX B200 erzielt bei massiven Modellen wie dem GPT-MoE-1.8T eine bis zu 15-mal höhere Inferenzleistung als die vorherige Generation von NVIDIA Hopper™. Die Transformer-Engine der zweiten Generation verwendet individuelle Blackwell Tensor Core-Technologie in Kombination mit TensorRT™-LLM und Nemo™ Framework-Innovationen zur Beschleunigung der Inferenz für große Sprachmodelle (LLMs) und Mixture-of-Experts(MoE)-Modelle.
Änderungen der prognostizierten Leistung vorbehalten. Leistung von 32.768 GPUs, 4.096 Acht-Wege-HGX H100-Cluster mit Luftkühlung: 400G Infiniband-Netzwerk (IB), 4.096 Acht-Wege-HGX B200-Cluster mit Luftkühlung: 400G IB-Netzwerk.
Die Transformer Engine der zweiten Generation mit 8-Bit-Gleitkomma (FP8) und neuen Precisions ermöglicht bemerkenswerterweise ein 3-mal schnelleres Training für große Sprachmodelle wie GPT-MoE-1.8T. Dieser Durchbruch wird durch NVLink der fünften Generation mit 1,8 Terabyte pro Sekunde (TB/s) GPU-zu-GPU-Verbindung, InfiniBand-Netzwerke und NVIDIA Magnum IO™ -Software unterstützt. Zusammen sorgen diese für effiziente Skalierbarkeit für Unternehmen und umfangreiche GPU-Computing-Cluster.
Das Rechenzentrum ist die Recheneinheit der Zukunft und Netzwerke spielen eine wesentliche Rolle bei der Skalierung der Anwendungsleistung im gesamten Rechenzentrum. In Kombination mit NVIDIA Quantum InfiniBand bietet HGX erstklassige Leistung und Effizienz, die die volle Auslastung der Computing-Ressourcen sicherstellen.
Für KI-Cloud-Rechenzentren, die Ethernet bereitstellen, wird HGX am besten mit der NVIDIA Spectrum-X-Netzwerkplattform verwendet, die die höchste KI-Leistung über Ethernet ermöglicht. Mit NVIDIA Spectrum™-Switches und BlueField-3-DPUs liefert es konsistente, vorhersehbare Ergebnisse für Tausende gleichzeitige KI-Aufgaben in jeder Größenordnung durch optimale Ressourcenauslastung und Leistungsisolierung. Spectrum-X ermöglicht außerdem fortschrittliche Cloud-Mandantenfähigkeit und Zero-Trust-Sicherheit. Als Referenzdesign hat NVIDIA Israel-1 entwickelt, einen Hyperscale-Supercomputer für generative KI mit Dell PowerEdge XE9680-Servern, basierend auf der NVIDIA HGX-Plattform mit acht GPUs, BlueField-3-DPUsund Spectrum-X-Switches.
NVIDIA Quantum-2 InfiniBand-Plattform: Quantum-2-Switch, ConnectX-7-Adapter, BlueField-3-DPU |
NVIDIA Spectrum-X Platform: Spectrum-4 Switch, |
NVIDIA Spectrum Ethernet Platform: Spectrum Switch, ConnectX Adapter, BlueField DPU |
|
---|---|---|---|
Deep Learning-Training | Optimal | Sehr gut | Gut |
Wissenschaftliche Simulation | Optimal | Sehr gut | Gut |
Datenanalysen | Optimal | Sehr gut | Gut |
Inferenz für Deep Learning | Optimal | Sehr gut | Gut |
NVIDIA HGX ist in einzelnen Hauptplatinen mit vier oder acht H200- oder H100-Grafikprozessoren oder acht Blackwell-Grafikprozessoren erhältlich. Diese leistungsstarken Kombinationen aus Hard- und Software legen den Grundstein für die neuartige KI-Supercomputing-Leistung.
HGX B200 | HGX B100 | |
---|---|---|
GPUs | HGX B200 8-GPU | HGX B100 8-GPU |
Formfaktor | 8x NVIDIA B200 SXM | 8x NVIDIA B100 SXM |
FP4 Tensor-Core | 144 PFLOPS | 112 PFLOPS |
FP8/FP6 Tensor-Core | 72 PFLOPS | 56 PFLOPS |
INT8 Tensor Core | 72 POPS | 56 POPS |
FP16/BF16 Tensor-Core | 36 PFLOPS | 28 PFLOPS |
TF32 Tensor Core | 18 PFLOPS | 14 PFLOPS |
FP32 | 640 TFLOPS | 480 TFLOPS |
FP64 | 320 TFLOPS | 240 TFLOPS |
FP64 Tensor-Core | 320 TFLOPS | 240 TFLOPS |
Arbeitsspeicher | Bis zu 1,5 TB | Bis zu 1,5 TB |
NVIDIA NVLink | Fünfte Generation | Fünfte Generation |
NVIDIA NVSwitch™ | Vierte Generation | Vierte Generation |
NVSwitch-Bandbreite für Verbindungen zwischen GPUs | 1,8 TB/s | 1,8 TB/s |
Gesamte aggregierte Bandbreite | 14,4 TB/s | 14,4 TB/s |
* HGX H200 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H200 4-GPU | HGX H200 8-GPU | ||
Formfaktor | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
FP8/FP6 Tensor-Core | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor-Core | 16 POPS | 32 POPS | ||
FP16/BFLOAT16 Tensor-Core | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor-Core | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
Arbeitsspeicher | Bis zu 564 GB | Bis zu 1,1 TB | ||
NVLink | Vierte Generation | Vierte Generation | ||
NVSwitch | k. A. | Dritte Generation | ||
NVSwitch-Bandbreite für Verbindungen zwischen GPUs | k. A. | 900GB/s | ||
Gesamte aggregierte Bandbreite | 3,6 TB/s | 7,2 TB/s |
* HGX H100 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H100 4-GPU | HGX H100 8-GPU | ||
Formfaktor | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)* | 268TF/4PF/8PF/16PF/16 POPS | 535TF/8PF/16PF/32PF/32 POPS | ||
FP8/FP6 Tensor Core | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor Core | 16 POPS | 32 POPS | ||
FP16/BFLOAT16 Tensor Core | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor Core | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor-Core | 270 TFLOPS | 540 TFLOPS | ||
Arbeitsspeicher | Bis zu 320 GB | Bis zu 640 GB | ||
NVLink | Vierte Generation | Vierte Generation | ||
NVSwitch | N/A | Third generation | ||
NVLink Switch | k. A | k. A | ||
NVSwitch-Bandbreite für Verbindungen zwischen GPUs | k. A | 900GB/s | ||
Gesamte aggregierte Bandbreite | 3,6 TB/s | 7,2 TB/s |
* Mit geringer Dichte
Erfahren Sie mehr über die NVIDIA H200-Tensor-Core-GPU.