NVIDIA Magnum IO

La Plataforma de Aceleración de E/S para el Data Center

Acelera la E/S de los Data Centers
Rendimiento para la IA en Todas Partes

Las empresas están refinando sus datos y convirtiéndose en fabricantes de inteligencia. Los data centers se están convirtiendo en fábricas de IA habilitadas por la computación acelerada, lo que ha acelerado la computación en un millón de veces. Sin embargo, la computación acelerada requiere una E/S acelerada. NVIDIA Magnum IO™ es la arquitectura para la E/S de data centers inteligente y en paralelo. Maximiza el almacenamiento, la red y las comunicaciones de múltiples nodos y múltiples GPU para las aplicaciones más importantes del mundo, utilizando grandes modelos de idiomas, sistemas de recomendación, generación de imágenes, simulación e investigación científica.

Pila de Optimización NVIDIA Magnum IO

NVIDIA Magnum IO utiliza E/S de almacenamiento, E/S de red, computación en red y administración de E/S para simplificar y acelerar el movimiento, el acceso y la administración de datos en sistemas de múltiples GPU y múltiples nodos. Magnum IO es compatible con las bibliotecas NVIDIA CUDA-X™ y aprovecha al máximo una variedad de topologías del hardware de red y las GPU de NVIDIA para lograr un rendimiento óptimo y baja latencia.

[Blog de Desarrolladores] Magnum IO: Aceleración de la E/S en el Data Center Moderno

E/S de Almacenamiento

En sistemas de múltiples nodos y múltiples GPU, el rendimiento lento de un solo subproceso y en CPU se encuentran en la ruta crítica de acceso a los datos desde los dispositivos de almacenamiento local o remoto. Con la aceleración de E/S de almacenamiento, la GPU pasa por alto la CPU y la memoria del sistema y accede al almacenamiento remoto a través de 8 NIC de 200 Gb/s. De esta manera, se logra hasta 1.6 TB/s de ancho de banda de almacenamiento sin procesar.

Tecnologías Incluidas:

Almacenamiento de NVIDIA Magnum IO GPUDirect^® ›

NVIDIA NVMe SNAP^™ ›

E/S de red

NVIDIA NVLink®, NVIDIA Quantum InfiniBand, las redes Ethernet y la aceleración de E/S de red basada en RDMA reduce la sobrecarga de E/S, ya que se pasa por alto la CPU y se logran transferencias directas de datos a las GPU a velocidades de línea.

Tecnologías Incluidas:

Kit de Desarrollo del Plano de Datos ›

NVIDIA GPUDirect RDMA ›

NVIDIA® HPC-X® ›

Biblioteca de Comunicación Colectiva de NVIDIA (NCCL) ›

Biblioteca de Memoria Compartida de NVIDIA ›

UCX ›

Procesamiento de Paquetes y Switches Acelerados^® (ASAP²) ›

Computación en la Red

La computación en la red ofrece procesamiento dentro de la red para eliminar la latencia que se genera al atravesar los terminales y los saltos en el camino. Las unidades de procesamiento de datos (DPU) permiten la computación acelerada por hardware de red y definida por software. Esto incluye motores de procesamiento de datos preconfigurados y motores programables.

Tecnologías Incluidas:

DPU NVIDIA^® BlueField^® ›

MPI Tag Matching ›

NVIDIA^® Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP)^™ ›

Administración de E/S

Para optimizar la E/S en la computación, la red y el almacenamiento, los usuarios necesitan técnicas de resolución de problemas profundas y de telemetría avanzada. Las plataformas de administración de Magnum IO permiten a los operadores de data centers industriales y de investigación aprovisionar, monitorear, administrar y mantener la estructura del data center moderno de manera eficiente y preventiva.

Tecnologías Incluidas:

NVIDIA NetQ^™ ›

NVIDIA^® UFM^® ›

Aceleración de la E/S en todas las Aplicaciones de Data Centers

NVIDIA Magnum IO interactúa con las bibliotecas de computación de alto rendimiento (HPC) e (IA) de NVIDIA para acelerar la E/S en una amplia gama de casos de uso, desde la IA hasta la visualización científica.

Análisis de Datos
Computación de Alto Rendimiento
Deep Learning (Entrenamiento/Inferencia)
Renderizado y Visualización

Análisis de Datos

Hoy en día, la ciencia de datos y el machine learning (ML) son los segmentos de computación más grandes del mundo. Las mejoras modestas en la precisión de los modelos de ML predictivos generan miles de millones de dólares.

Bibliotecas y Herramientas de Análisis de Datos de Magnum IO

Para mejorar la precisión, la biblioteca RAPIDS™ Accelerator tiene un orden aleatorio de Apache Spark acelerado e incorporado que se basa en UCX. Este orden aleatorio se puede configurar para aprovechar la comunicación de GPU a GPU y las capacidades de RDMA. La plataforma de data centers de NVIDIA está en una posición única para acelerar enormes cargas de trabajo mediante un rendimiento y una eficiencia sin precedente, ya que se combina con las redes de NVIDIA, el software NVIDIA Magnum IO, Spark 3.0 acelerado por GPU y RAPIDS.

GPUDirect Storage (GDS) se ha integrado con RAPIDS para lectores ORC, Parquet, CSV y Avro. RAPIDS CuIO ha logrado una mejora del rendimiento de hasta 4.5 veces con archivos Parquet utilizando GDS en workflows a gran escala.

Adobe logra una aceleración 7 veces mayor en el entrenamiento de modelos con Spark 3.0 en Databricks para lograr un ahorro de costos del 90%

Computación de Alto Rendimiento

Mientras buscan alcanzar los descubrimientos de la próxima generación, los científicos confían en la simulación a fin de comprender mejor las moléculas complejas para descubrir fármacos, la física para detectar nuevas fuentes de energía y los datos atmosféricos para realizar mejores predicciones de los patrones climáticos extremos. Las principales aplicaciones y simulaciones aprovechan NVIDIA Magnum IO para acelerar el tiempo de comprensión. Magnum IO expone motores de aceleración a nivel de hardware y descargas inteligentes, como RDMA, NVIDIA GPUDirect y NVIDIA SHARP, al tiempo que refuerza el alto ancho de banda y la latencia ultrabaja de las GPU en redes con NVIDIA InfiniBand y NVIDIA NVLink.

En entornos de clientes múltiples, las aplicaciones de usuario pueden no estar conscientes de la inferencia indiscriminada del tráfico de aplicaciones vecino. Magnum IO, en la plataforma NVIDIA Quantum-2 InfiniBand más reciente, cuenta con capacidades nuevas y mejoradas para mitigar el impacto negativo en el rendimiento de un usuario. Esto ofrece resultados óptimos, así como las implementaciones de HPC y ML más eficientes a cualquier escala.

Aplicaciones de HPC y Bibliotecas de Magnum IO

El rendimiento de VASP mejora significativamente cuando MPI se reemplaza por NCCL. LA UCX acelera las aplicaciones de computación científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K y Spec-HPC2021, para acelerar los tiempos de ejecución en las frecuencias de trabajo.

NVIDIA HPC-X aumenta la disponibilidad de la CPU, la escalabilidad de aplicaciones y la eficiencia del sistema para mejorar el rendimiento de las aplicaciones, que se distribuye mediante varios ISV de HPC. NCCL, UCX y HPC-X forman parte del HPC-SDK.

Las Transformaciones Rápidas de Fourier (FFT) se usan ampliamente en una variedad de campos, que van desde la dinámica molecular, el procesamiento de señales y la dinámica de fluidos computacional (CFD) hasta las aplicaciones multimedia y de ML inalámbricas. Al usar la Biblioteca de Memoria Compartida de NVIDIA (NVSHMEM)™, cuFFTMp es independiente de la implementación de MPI y opera más cerca de la velocidad de la luz, lo cual es fundamental ya que el rendimiento puede variar significativamente de un MPI a otro.

La biblioteca Lattice Quantum Chromodynamics del Análisis de Datos Cualitativo (QUDA) puede usar NVSHMEM para la comunicación y así reducir los gastos generales de la sincronización de la CPU y la GPU, y mejorar la superposición de la computación y la comunicación. Esto reduce las latencias y mejora la escalabilidad fuerte.

Múltiples Nodos de Múltiples GPU: Uso de FFT NVIDIA cuFFTMp a escala

La Visualización de Volumen Interactiva Más Grande: Simulación De Aterrizaje en Marte de la NASA de 150 TB

Deep Learning

La clase emergente de los modelos de IA con billones de parámetros y de HPC a exaescala para tareas como la IA conversacional superhumana requieren meses para entrenarse, incluso en supercomputadoras. Comprimir esto a la velocidad del negocio para completar el entrenamiento en unos días requiere una comunicación altamente rápida y fluida entre cada GPU de un clúster de servidor, para que puedan escalar el rendimiento. La combinación de NVIDIA NVLink, NVIDIA NVSwitch, las bibliotecas de NVIDIA Magnum IO y la fuerte escalabilidad en todos los servidores ofrece aceleraciones de entrenamiento de IA de hasta 9 veces en los modelos de combinación de expertos (MoE). Esto permite a los investigadores entrenar modelos enormes a la velocidad de los negocios.

Bibliotecas de Magnum IO e Integraciones de Deep Learning

NCCL y otras bibliotecas de Magnum IO aprovechan de forma transparente las últimas redes NVIDIA H100 GPU, NVLink, NVSwitch e InfiniBand para proporcionar aceleraciones significativas para las cargas de trabajo de deep learning, en especial los sistemas de recomendación y el entrenamiento de grandes modelos de idiomas.

Los beneficios de NCCL incluyen un tiempo más rápido para lograr una precisión de entrenamiento de modelos, al tiempo que logra un ancho de banda de interconexión cercano al 100 por ciento entre servidores en un entorno distribuido.

Magnum IO GPUDirect Storage (GDS) se ha habilitado en la Biblioteca de carga de datos (DALI) a través del operador de lector Numpy. GDS ofrece hasta 7.2 veces más de rendimiento en la inferencia de deep learning con DALI, en comparación con Numpy de base.

Permitir que los investigadores continúen ampliando los límites de lo que es posible con la IA requiere un rendimiento potente y una escalabilidad masiva. La combinación de redes NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch y la pila de software Magnum IO ofrece escalabilidad lista para usarse para cientos o miles de GPU que operan juntas.

El Rendimiento Aumenta 1.9 Veces en LBANN con NVSHMEM frente a MPI

Renderizado y Visualización

Las GPU se utilizan para acelerar tareas complejas y que llevan mucho tiempo en una variedad de aplicaciones, desde gráficos en el aire hasta la reconstrucción de imágenes estereoscópicas en tiempo real.

La tecnología NVIDIA GPUDirect for Video permite que el hardware de terceros se comunique de manera eficiente con las GPU de NVIDIA y minimice los problemas de latencia históricos. Con NVIDIA GPUDirect for Video, los dispositivos de E/S se sincronizan completamente con la GPU y la CPU para minimizar los ciclos de desperdicio que copian datos entre los controladores de dispositivos.

GPUDirect Storage (GDS) se integra con cuCIM, un kit de herramientas extensible diseñado para proporcionar primitivas de I/O aceleradas por GPU, visión de computación y procesamiento de imágenes para imágenes dimensionales de N dimensiones con un enfoque en la generación de imágenes biomédicas.

En los siguientes dos ejemplos, NVIDIA IndeX® se usa con GDS para acelerar la visualización de los conjuntos de datos muy grandes involucrados.

Visualiza Imágenes de Microscopía de Células Vivas en Tiempo Real con NVIDIA Clara™ Holoscan

La Visualización de Volumen Interactiva Más Grande: Simulación del Aterrizaje en Marte de la NASA de 150 TB

Recursos

> NVIDIA Magnum IO GitHub
> NVIDIA GPUDirect Storage: Un Camino Directo entre la Memoria de GPU y el Almacenamiento
> Aceleración de la E/S en el Data Center Moderno: E/S de Redes
> Aceleración de Colectivos Basados en Equipos de NVSHMEM 2.0 Utilizando NCCL
> Optimización del Movimiento de Datos en Aplicaciones de GPU con el Entorno de Desarrolladores NVIDIA Magnum IO
> Aceleración de la Supercomputación Nativa de Cloud con Magnum IO
> Acceso A MOFED

Regístrate para recibir noticias y actualizaciones de NVIDIA Magnum IO.

NVIDIA Magnum IO

Acelera la E/S de los Data Centers Rendimiento para la IA en Todas Partes

Pila de Optimización NVIDIA Magnum IO

E/S de Almacenamiento

E/S de red

Computación en la Red

Administración de E/S

Aceleración de la E/S en todas las Aplicaciones de Data Centers

Análisis de Datos

Bibliotecas y Herramientas de Análisis de Datos de Magnum IO

Computación de Alto Rendimiento

Deep Learning

Renderizado y Visualización

Recursos

OBTENER LA INFORMACIÓN MÁS RECIENTE MAGNUM IO

NVIDIA GPUDirect Storage (GDS)

Procesamiento Acelerado de Red Definido por Software (SNAP) de NVIDIA NVMe

Kit de Desarrollo del Plano de Datos (DPDK)

NVIDIA GPUDirect RDMA (GDR)

NVIDIA HPC-X

Biblioteca de Comunicación Colectiva de NVIDIA (NCCL)

Biblioteca de Memoria Compartida de NVIDIA (NVSHMEM)

UCX

Procesamiento de Paquetes y Switches Acelerados® (ASAP2)

Unidad de procesamiento de datos (DPU) NVIDIA® BlueField DPU®

MPI Tag Matching

NVIDIA SHARP

NVIDIA NetQ

NVIDIA Unified Fabric Manager (UFM)

Acelera la E/S de los Data Centers
Rendimiento para la IA en Todas Partes

Procesamiento de Paquetes y Switches Acelerados^® (ASAP²)

Unidad de procesamiento de datos (DPU) NVIDIA^® BlueField DPU^®