El acelerador de inferencia para NVIDIA Vera Rubin.
Descripción General
En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a costa del rendimiento, o rendimiento e inteligencia a costa de la interactividad. No era posible tener las tres cosas. Los sistemas de agentes exigen más.
NVIDIA Groq 3 LPX es el acelerador de inferencia para NVIDIA Vera Rubin, diseñado para cumplir con las demandas de baja latencia y contexto grande de los sistemas agénticos. Vera Rubin y LPX unen el desempeño extremo de las GPU y LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.
Rendimiento de inferencia
Al combinar las GPU Rubin para memoria de alto ancho de banda (HBM) y LPU para memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de desempeño de inferencia para modelos de billones de parámetros y un contexto de millones de tokens. Las GPU y las LPU Rubin, implementadas con Vera Rubin NVL72, impulsan la decodificación al computar conjuntamente cada capa del modelo de IA para cada token de resultado.
Los sistemas de agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un volumen de tokens y ventanas contextuales masivas con baja latencia y economía eficiente. Cuando se combina con LPX, Vera Rubin ofrece un rendimiento por megavatio hasta 35 veces mayor para modelos de billones de parámetros.
Los agentes son unidades de inteligencia y la inferencia es su combustible. Para ofrecer un impacto en el mundo real, los sistemas basados en agentes necesitan tokens rápidos e inteligentes. Cuando LPX se combina con Vera Rubin, el rendimiento adicional por vatio y el desempeño del token abren un nuevo nivel de inferencia ultraprémium de billones de parámetros y contexto de un millón, lo que expande las oportunidades de ingresos para todos los proveedores de IA.
La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.
Avances Tecnológicos
NVIDIA Vera Rubin NVL72, que se desarrolló mediante un diseño conjunto extremo, unifica siete chips diseñados específicamente en una sola supercomputadora de IA.
En un bastidor LPX, 256 chips LPU se unen para ofrecer un desempeño extremo.
En cada bastidor, LPX ofrece 128 GB de SRAM para procesamiento de baja latencia y 12 TB de memoria DDR5 para grandes modelos y cargas de trabajo.
40 petabytes por segundo (PB/s) de ancho de banda SRAM por bastidor ofrecen baja latencia.
Los enlaces directos de chip a chip ofrecen 640 TB/s de ancho de banda de escalabilidad en todo el bastidor LPX para la comunicación con chips de baja latencia.
Las conexiones de alta velocidad de LPX a NVL72 reducen la latencia a casi cero.
LPX aprovecha el bastidor NVIDIA MGX™ para extraer, transformar y cargar (ETL), lo que permite a las fábricas de tokens planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.
Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.