NVIDIA Riva

NVIDIA Riva es un framework de aplicaciones para servicios de IA conversacional y multimodal que ofrecen rendimiento en tiempo real en las GPUs.

Webinar Introductorio Registrarse en el Programa Beta

Riva es un framework de aplicaciones totalmente acelerado para la creación de servicios de IA conversacional y multimodal que utilizan un proceso de deep learning integral. Los desarrolladores pueden ajustar fácilmente modelos de vanguardia con sus datos para lograr una comprensión más profunda de su contexto específico y optimizar así la inferencia, a fin de ofrecer servicios integrales en tiempo real, que se ejecutan en menos de 300 milisegundos (ms) y ofrecen un rendimiento 7 veces mayor en las GPU en comparación con las CPU.

El framework Riva incluye modelos de IA conversacional previamente entrenados, el kit de herramientas de IA de NVIDIA y servicios optimizados e integrales extremo para tareas de habla, visión y comprensión de idiomas naturales (NLU).

La fusión de la visión, el audio y otras entradas de sensores de forma simultánea proporciona capacidades tales como conversaciones multiusuario y multicontextuales en aplicaciones como asistentes virtuales, agendas multiusuario y asistentes de centros de llamadas.

Las aplicaciones basadas en Riva se han optimizado para maximizar el rendimiento de la plataforma NVIDIA EGX™ en el cloud, el data center y el edge.

Rendimiento en Tiempo Real

Ejecuta aplicaciones de IA conversacional basadas en deep learning en menos de 300 ms, el umbral de latencia para el rendimiento en tiempo real.

Multimodal

Fusiona el habla y la visión para ofrecer interacciones precisas y naturales en asistentes virtuales, chatbots y otras aplicaciones de IA conversacional.

Implementación Automatizada

Usa un comando para implementar servicios de IA conversacional en el cloud o el edge.

“Ping An aborda millones de consultas de los clientes cada día mediante agentes de bots de chat. Como socios iniciales del programa de acceso temprano de Riva, pudimos usar las herramientas y crear mejores soluciones con mayor precisión y menor latencia, proporcionando así mejores servicios. Más específicamente, con NeMo, el modelo pre-entrenado, y la canalización ASR optimizada con Riva, el sistema logró una mejora del 5% en la precisión, a fin de brindar un mejor servicio a nuestros clientes.”

— Dr. Jing Xiao, Científico Jefe de Ping An

“En nuestra evaluación de Riva para asistentes virtuales y análisis de voz, vimos una precisión notable al ajustar los modelos de reconocimiento de voz automatizado en el idioma ruso utilizando el kit de herramientas NeMo en Riva. Riva puede proporcionar un rendimiento de hasta 10 veces más con potentes optimizaciones de TensorRT en los modelos, por lo que estamos deseando utilizar Riva para aprovechar al máximo estos avances tecnológicos.”

— Nikita Semenov, Jefe de ML en MTS AI

“InstaDeep ofrece productos de inteligencia artificial y soluciones para la toma de decisiones a las empresas. Para este proyecto, nuestro objetivo es crear un asistente virtual en árabe y NVIDIA Riva jugó un papel importante en la mejora del rendimiento de la aplicación. Con el kit de herramientas NeMo en Riva, pudimos ajustar un modelo de voz al texto árabe para obtener una tasa de error de palabras tan baja como 7.84% y redujimos el tiempo de entrenamiento del modelo de días a horas usando GPU. Esperamos integrar estos modelos en el proceso de principio a fin de Riva para garantizar la latencia en tiempo real.”

— Karim Beguir, CEO y Cofundador de InstaDeep

“Na Intelligent Voice, fornecemos soluções de reconhecimento de voz de alto desempenho, mas nossos clientes estão sempre procurando mais. O Riva adota uma abordagem multimodal que funde elementos-chave do Reconhecimento Automático de Fala com correspondência de entidade e intenção para lidar com novos casos de uso onde rendimento e baixa latência são necessários. A API Riva é muito fácil de usar, integrar e personalizar os workflows de nossos clientes para desempenho otimizado.”

— Nigel Cannings, CTO da Intelligent Voice

“En Intelligent Voice, proporcionamos soluciones de reconocimiento de voz de alto rendimiento, pero nuestros clientes siempre buscan más. Riva adopta un enfoque multimodal que fusiona elementos clave del reconocimiento automático de voz con la coincidencia de entidades e intenciones para abordar nuevos casos de uso donde se requieren rendimiento y baja latencia. La API de Riva es muy fácil de usar, integrar y personalizar según los workflows de nuestros clientes para un rendimiento optimizado.”

— Andrew Gostine, MD, MBA, CEO de Whiteboard Coordinator

“La baja latencia es fundamental en los centros de llamadas y, con las GPU de NVIDIA, nuestros agentes pueden escuchar, comprender y responder en menos de un segundo con los niveles más altos de precisión. Según las primeras evaluaciones de los canales de comprensión del habla y el lenguaje en NVIDIA Riva, creemos que podemos mejorar la latencia aún más mientras mantenemos la precisión, brindando la mejor experiencia posible para nuestros clientes.”

— Alan Bekker, cofundador y CTO de Voca

“A través del programa de acceso temprano NVIDIA Riva, pudimos impulsar nuestros productos de inteligencia artificial conversacional con modelos de vanguardia utilizando NVIDIA NeMo, lo que reduce significativamente el costo de comenzar. El reconocimiento de voz Riva tiene una latencia sorprendentemente baja y una alta precisión. Tener la flexibilidad de implementar en las instalaciones y ofrecer una gama de opciones de seguridad y privacidad de datos a nuestros clientes nos ha ayudado a posicionar nuestros productos habilitados para la IA conversacional en nuevas verticales de la industria.”

— Rajesh Jha, CEO de Siminsights.

“Las aplicaciones de IA conversacional están hambrientas de datos. Imagine los datos necesarios para entrenar modelos o el almacenamiento requerido para almacenar toda la información para tener interacciones más naturales y útiles. Riva nos ayudó a aprovechar estos datos para alcanzar nuestro objetivo de crear asistentes virtuales para tiendas minoristas más rápido. Las canalizaciones de Riva utilizan modelos de deep learning de última generación y ejecutan las aplicaciones conversacionales en milisegundos.”

— AJ Mahajan, Director Sénior de Soluciones en NetApp

Crear Modelos de Deep Learning de Vanguardia

Figura 1: Modelos previamente entrenados

Usa modelos de deep learning de última generación capacitados durante más de 100,000 horas en los sistemas NVIDIA DGX™ para tareas de habla, comprensión de idiomas y visión. Los modelos y scripts previamente entrenados que se utilizan en Riva están disponibles gratuitamente en NGC™.

YouPuede ajustar estos modelos para su dominio con sus datos utilizando NVIDIA NeMo y el Kit de Herramientas Transfer Learning para implementarlos fácilmente como servicios.

Desarrollar Nuevas Habilidades Multimodales

Desarrolla habilidades multimodales como la transcripción de varios hablantes, chatbots, reconocimiento de gestos y mirar para hablar para tus aplicaciones de IA conversacional.

Riva incluye muestras de varias habilidades que puedes personalizar para tu caso de uso. Con Riva, puedes usar procesos de voz, comprensión de idiomas y visión junto con un administrador de diálogo que admite múltiples usuarios y contextos para crear nuevas habilidades.

Figura 2: Aplicación multimodal con múltiples usuarios y contextos

Servicios Optimizados para Tareas Específicas

Figura 3: Servicios de IA en Riva

Accede a servicios de alto rendimiento para tareas como reconocimiento de voz, reconocimiento de intención, conversión de texto a voz, estimación de pose, detección de mirada y detección de puntos de referencia faciales a través de una API simple.

Los procesos tuberías de cada habilidad se pueden fusionar para desarrollar nuevas habilidades. Cada proceso se ajusta al rendimiento para ofrecer el mayor rendimiento posible y se puede personalizar para tu caso de uso específico.

Desarrollar e Implementar Servicios Fácilmente

Automatiza los pasos que van desde modelos previamente entrenados hasta servicios optimizados implementados en el cloud, el data center y el edge. En segundo plano, Riva aplica potentes optimizaciones de NVIDIA® TensorRT™ a los modelos, configura el Servidor de Inferencia NVIDIA Triton™, y expone los modelos como un servicio a través de una API estándar.

Para implementarlo, puedes usar un solo comando para descargar, configurar y ejecutar la aplicación Riva completa o servicios individuales a través de plantillas de Helm en clústeres de Kubernetes. Las plantillas de Helm se pueden personalizar para tu caso de uso y configuración específicos.