NVIDIA NeMo
NVIDIA NeMo es un conjunto de herramientas de código abierto para desarrollar modelos de IA conversacional de última generación.
La construcción de modelos de IA conversacional de última generación requiere que los investigadores experimenten rápidamente con arquitecturas de red novedosas. Esto significa pasar por el complejo y lento proceso de modificar múltiples redes y verificar la compatibilidad entre las entradas, salidas y capas de preprocesamiento de datos.
NVIDIA NeMo es un kit de herramientas de Python para crear, entrenar y ajustar modelos de IA conversacional acelerados por GPU utilizando una interfaz simple. Con NeMo, los investigadores y desarrolladores pueden crear modelos de IA conversacionales de última generación aprovechando interfaces de programación de aplicaciones (API) fáciles de usar. NeMo ejecuta computación de precisión mixta utilizando Tensor Cores en las GPUs de NVIDIA y puede escalar a múltiples GPUs fácilmente para brindar el mayor rendimiento de entrenamiento posible.
NeMo se utiliza para construir modelos para aplicaciones de reconocimiento de voz automatizado (ASR), procesamiento de idiomas naturales (NLP) y texto a voz (TTS) en tiempo real, como transcripciones de videollamadas, asistentes de video inteligentes y soporte de centro de llamadas automatizado en los sectores de la atención de la salud, finanzas, comercio minorista y telecomunicaciones.
Desarrollo Rápida de Modelos
Configura, crea y entrena modelos rápidamente con APIs de Python simples.
Modelos personalizables
Descarga y personaliza modelos de última generación previamente entrenados de NGC.
Ampliamente integrado
Interoperable con el ecosistema PyTorch y PyTorch Lightning.
Fácil Implementación
Aplica optimizaciones de NVIDIA? TensorRT? para inferencia y exportación a NVIDIA Riva con un solo comando.
Integraciones de Frameworks Populares
PyTorch
NeMo está construido sobre el popular framework de PyTorch y facilita a los investigadores el uso de los módulos de NeMo con aplicaciones de PyTorch.
PyTorch Lightning
NeMo con Pytorch Lightning permite un entrenamiento fácil y eficaz de precisión mixta multi-GPU/multi-nodo
Hydra
Hydra es una solución flexible que permite a los investigadores configurar módulos y modelos de NeMo rápidamente desde un archivo de configuración y una línea de comando.
DataSaur
La integración de DataSaur con el kit de herramientas de NeMo transforma fácilmente los datos sin procesar en un modelo de IA conversacional completo.
"Ping An aborda millones de consultas de los clientes cada día mediante agentes de bots de chat. Como socios iniciales del programa de acceso temprano de Riva, pudimos usar las herramientas y crear mejores soluciones con mayor precisión y menor latencia, proporcionando así mejores serviciosx. Más específicamente, con NeMo, el modelo pre-entrenado, y la canalización ASR optimizada con Riva, el sistema logró una mejora del 5% en la precisión, a fin de brindar un mejor servicio a nuestros clientes."
— Dr. Jing Xiao, Científico Jefe de Ping An
"En nuestra evaluación de Riva para asistentes virtuales y análisis de voz, vimos una precisión notable al ajustar los modelos de Reconocimiento de Voz Automatizado en el idioma ruso utilizando el kit de herramientas NeMo en Riva. Riva puede proporcionar un rendimiento de hasta 10 veces más con potentes optimizaciones de TensorRT en modelos, por lo que esperamos usar Riva para aprovechar al máximo estos avances tecnológicos.”
— Nikita Semenov, Jefe de ML en MTS AI
“InstaDeep ofrece productos de inteligencia artificial y soluciones para la toma de decisiones a las empresas. Para este proyecto, nuestro objetivo es crear un asistente virtual en árabe y NVIDIA Riva jugó un papel importante en la mejora del rendimiento de la aplicación. Con el kit de herramientas NeMo en Riva, pudimos ajustar un modelo de voz al texto árabe para obtener una tasa de error de palabras tan baja como 7.84% y redujimos el tiempo de entrenamiento del modelo de días a horas usando GPU. Esperamos integrar estos modelos en el proceso de principio a fin de Riva para garantizar la latencia en tiempo real.”
— Karim Beguir, CEO y Cofundador de InstaDeep
“A través del programa de acceso temprano NVIDIA Riva, pudimos impulsar nuestros productos de inteligencia artificial conversacional con modelos de vanguardia utilizando NVIDIA NeMo, lo que reduce significativamente el costo de comenzar. El reconocimiento de voz Riva tiene una latencia sorprendentemente baja y una alta precisión. Tener la flexibilidad de implementar en las instalaciones y ofrecer una gama de opciones de seguridad y privacidad de datos a nuestros clientes nos ha ayudado a posicionar nuestros productos habilitados para la IA conversacional en nuevas verticales de la industria.”
— Rajesh Jha, CEO de Siminsights.
"En MeetKai, creamos asistentes virtuales que facilitan la vida de las personas. Cuando comenzamos nuestra empresa, enfrentamos desafíos de ingeniería y producción porque no había muchos kits de herramientas de inteligencia artificial conversacionales de código abierto y de alta calidad. NVIDIA NeMo ayudó a nuestros esfuerzos de ingeniería al proporcionando API fáciles de usar y reduciendo nuestros costos en un 25%. Esperamos continuar trabajando con NeMo para crear el asistente de inteligencia artificial definitivo.”
— James Kalpan, CEO de MeetKai
“Kensho aprovecha los datos y la investigación de clase mundial de S&P Global para crear herramientas asombrosas que ayuden a las personas a tomar decisiones basadas en hechos. Al usar NVIDIA NeMo en GPU, Kensho transcribió con éxito decenas de miles de llamadas de ganancias, presentaciones de gestión y llamadas de adquisición, desbloqueando mejoras de precisión de dos dígitos y permitiendo a S&P Global aumentar la cobertura de llamadas de ganancias en más del 25%.”
— Keenan Freyberg, Director de Producto de Kensho
“Nuestro objetivo con SpeechBrain en MILA es crear un conjunto de herramientas todo en uno que pueda acelerar significativamente la investigación y el desarrollo de modelos de voz. Estamos interesados en ampliar aún más los límites de las tecnologías del habla mediante la integración con los módulos de NeMo, en particular el reconocimiento de voz y el modelado del lenguaje.”
— Mirco Ravanelli, Científico de Habla y Deep Learning en MILA
Componer Fácilmente Nuevas Arquitecturas de Modelos
NeMo incluye colecciones específicas de dominio para ASR, NLP y TTS para desarrollar modelos de vanguardia como QuartzNet, Jasper, BERT, Tacotron2, y WaveGlow en tres líneas de código. El modelo NeMo se compone de módulos neuronales, que son los componentes básicos de los modelos. Las entradas y salidas de estos módulos están fuertemente tipificadas con tipos neuronales que pueden realizar automáticamente las verificaciones semánticas entre los módulos.
NeMo se dise?ó para ofrecer una alta flexibilidad y puede usar el framework Hydra para modificar el comportamiento de los modelos fácilmente. Por ejemplo, puedes modificar la arquitectura del módulo Jasper Encoder en el siguiente diagrama usando Hydra.
Volver a Entrenar Modelos de IA Conversacional de SOTA
Varios modelos de última generación previamente entrenados por NeMo están disponibles en NGC y están entrenados durante más de 100,000 horas en NVIDIA DGX? en conjuntos de datos abiertos y propietarios. Puede ajustar estos modelos o modificarlos con NeMo antes de entrenarlos para tu caso de uso.
NeMo utiliza precisión mixta en Tensor Cores para acelerar el entrenamiento hasta 4.5 veces en una sola GPU en comparación con la precisión FP32. Puede escalar aún más el entrenamiento a sistemas de múltiples GPU y clústeres de múltiples nodos.
Ecosistema Flexible, de Código Abierto y en Rápida Expansión
NeMo se basa en PyTorch y PyTorch Lightning, a fin de proporcionar un camino fácil para que los investigadores desarrollen e integren los módulos con los que ya se sienten cómodos. PyTorch y PyTorch Lightning son bibliotecas de Python de código abierto que proporcionan módulos para componer modelos.
A fin de proporcionar flexibilidad al investigador para que personalice modelos y módulos fácilmente, NeMo se integró con el framework Hydra. Hydra es un framework popular que simplifica el desarrollo de modelos complejos de IA conversacional.
NeMo está disponible como código abierto para que los investigadores puedan aprovecharlo para contribuir y desarrollar.
Implementar en Servicios en Tiempo Real
Los modelos NeMo se pueden exportar fácilmente a los servicios NVIDIA Riva para obtener inferencias de alto rendimiento con un solo comando. Puede exportar modelos en ONNX, PyTorch y TorchScript.
Riva aplica potentes optimizaciones de TensorRT y configura el servicio para que puedas acceder a estos modelos a través de una API estándar.
Ampliamente Adoptado
Recursos
Comience con los Tutoriales
Consulte los tutoriales para comenzar a trabajar rápidamente con modelos de habla y lenguaje de última generación.
Haga un Recorrido por NeMo
Comprenda las ventajas de utilizar NVIDIA NeMo con un tutorial de Jupyter Notebook.
Cree Aplicaciones de Inteligencia Artificial Conversacional
Aprenda a crear y ajustar los servicios ASR, NLP y TTS con NVIDIA NeMo y Riva.
Explore Más Blogs de IA Conversacionales
Manténgase actualizado aprendiendo las novedades y el futuro de la IA conversacional.
NeMo se puede descargar en NGC. También puedes descargarlo con el comando pip install y el contenedor Docker desde el repositorio de NeMo GitHub