Entrez dans la nouvelle ère du calcul informatique sur Data Center.
La plateforme NVIDIA GB200 NVL2, qui ouvre la nouvelle ère du calcul accéléré pour tous les Data Centers, fournit des performances sans précédent pour les processus d'inférence grand public basés sur les grands modèles de langage (LLM), les recherches dans les bases de données vectorielles et le traitement des données grâce à la puissance combinée de deux GPU Blackwell et deux CPU Grace. Son architecture Scale-Out NVIDIA MGX™sur un seul nœud permet de mettre en œuvre une grande variété de systèmes et d’options réseau pour intégrer en toute transparence des capacités avancées de calcul accéléré au sein des infrastructures existantes de Data Center.
Points-clés
Inférence Llama3 avec LLM : latence jeton-à-jeton (TTL) = 50 millisecondes (ms) en temps réel ; latence du premier jeton (FTL) = 2 s ; longueur de séquence d’entrée = 2048, longueur de séquence de sortie = 128 ; 8x GPU NVIDIA HGX™ H100 à refroidissement par air vs GB200 NVL2 à refroidissement par air sur un seul nœud. Comparaison des performances par GPU.
Performances de recherche dans des bases de données vectorielles avec un pipeline de RAG faisant appel à de la mémoire partagée par un CPU NVIDIA Grace et un GPU Blackwell. 1x CPU x86, 1x GPU H100 et 1x GPU d'un nœud GB200 NVL2.
Traitement des données : charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy/Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique d'un nœud GB200 NVL2 ; GB200 vs Intel Xeon 8480+.
Mesures de performance susceptibles d’être modifiées.
Caractéristiques
L’architecture NVIDIA Blackwell fournit des innovations cruciales pour le calcul accéléré et va définir la nouvelle ère du calcul informatique avec des performances, une efficacité et une évolutivité sans précédent.
Le CPU NVIDIA Grace est un processeur révolutionnaire conçu pour les Data Centers modernes qui exécutent des applications d'IA, de Cloud et de calcul haute performance (HPC). Il fournit des performances et une bande passante mémoire exceptionnelles avec une efficacité énergétique deux fois plus élevée que les processeurs de serveur traditionnels.
NVIDIA NVLink-C2C interconnecte de manière cohérente les CPU Grace et les GPU Blackwell avec un débit de 900 Go/s. GB200 NVL2 exploite le modèle d'interconnexion NVLink-C2C et la technologie NVLink de cinquième génération pour mettre en œuvre un modèle de mémoire à haut degré de cohérence de 1,4 To afin d’accélérer les workflows d'IA de manière significative.
La mise en cache KV (Key Value) à valeur-clé réduit les délais de réponse du LLM en stockant le contexte et l’historique des conversations. La plateforme GB200 NVL2 optimise la mise en cache KV grâce à la mémoire cohérente des CPU Grace et des GPU Blackwell connectés par NVLink-C2C (une technologie jusqu’à 7 fois plus rapide que la norme PCIe), ce qui permet aux LLM de prévoir les mots plus rapidement que les implémentations GPU basées sur la gamme de processeurs x86.
Pour exploiter le plein potentiel du calcul Exascale et de nouveaux modèles d’IA pouvant inclure plusieurs billions de paramètres, il convient de mettre en œuvre des communications fluides et rapides entre chaque GPU au sein d’un cluster de serveurs. La technologie NVLink de cinquième génération repose sur un modèle d’interconnexion évolutif qui contribue à accélérer les performances des modèles d’IA incluant des billions de paramètres (voire beaucoup plus).
Les réseaux de Data Centers jouent un rôle essentiel dans l’innovation et les performances des applications d’IA. Chaque réseau tient lieu de pilier pour l’entraînement des modèles d’IA distribuée et pour la mise en œuvre d'une IA générative à hautes performances. Les solutions de mise en réseau NVIDIA Quantum-X800 InfiniBand et NVIDIA Spectrum™-X800 Ethernetainsi que les DPU NVIDIA BlueField®-3 assurent une évolutivité efficace sur des centaines et des milliers de GPU Blackwell, fournissant ainsi des performances d’application optimales.
Spécifications
Configuration | 2x CPU Grace, 2x GPU Blackwell |
FP4 Tensor Core² | 40 PFlops |
FP8/FP6 Tensor Core² | 20 PFlops |
INT8 Tensor Core² | 20 Pops |
FP16/BF16 Tensor Core² | 10 PFlops |
TF32 Tensor Core² | 5 PFlops |
FP32 | 180 TFlops |
FP64 Tensor Core | 90 TFlops |
Mémoire GPU | Bande passante | Jusqu'à 384 Go | 16 To/s |
Nombre de cœurs CPU | 144 cœurs Arm® Neoverse V2 |
Mémoire LPDDR5X | Bande passante | Jusqu’à 960 Go | Jusqu’à 1024 Go/s |
Interconnexion | NVLink : 1,8 To/s NVLink-C2C : 2x 900 Go/s PCIe Gen6 : 2x 256 Go/s |
Options de serveur | Différentes options de configuration NVIDIA GB200 NVL2 avec NVIDIA MGX |
1 Spécifications préliminaires. Susceptibles d'être modifiées. |
Le domaine NVIDIA GB200 NVL72 permet de connecter 36 puces GB200 Superchip au sein d'une configuration rackable. Ce système unique en son genre constitue une solution rackable évolutive à refroidissement liquide qui assure la mise en œuvre d'un domaine NVLink à 72 GPU agissant comme un puissant GPU unique.
Démarrage
Inscrivez-vous pour savoir quand NVIDIA Blackwell sera disponible.