Tensor 코어는 혼합 정밀도 컴퓨팅을 지원하며, 정확도를 유지하고 향상된 보안을 제공하면서 처리량을 가속화하도록 계산을 동적으로 조정할 수 있습니다. 최신 세대의 Tensor 코어는 광범위한 AI 및 고성능 컴퓨팅(HPC) 작업을 그 어느 때보다 빠르게 처리합니다. 수조 개의 매개변수를 갖는 AI 모델 학습부터 획기적인 추론 성능 달성에 이르기까지, NVIDIA Tensor 코어는 최신 AI 팩토리를 위한 모든 워크로드를 가속화합니다.
NVIDIA Rubin 플랫폼은 향상된 5세대 Tensor 코어를 도입합니다. 현대 AI 팩토리를 가속화하도록 설계되었으며, 4비트 저정밀 NVFP4 및 FP8 연산에 대한 지원을 최적화합니다. NVIDIA Rubin의 스트리밍 멀티프로세서 내에서 확장된 특수 함수 유닛과 이러한 Tensor 코어를 긴밀하게 통합함으로써, 이 플랫폼은 어텐션 메커니즘과 희소 연산 경로를 크게 가속화하여 모델 정확성을 저하시키지 않으면서 산술 밀도와 에너지 효율성을 모두 향상시킵니다.
차세대 에이전틱 AI를 구동하는 NVIDIA Rubin GPU는 5세대 Tensor 코어와 NVFP4 정밀도를 활용해 추론 효율을 극대화하는 50 petaFLOPS Transformer Engine을 특징으로 합니다. 이러한 아키텍처의 도약은 NVIDIA Vera Rubin NVL72 시스템에서 NVFP4 추론 기준 최대 3,600 PFLOPS까지 원활하게 확장되며, 실시간 추론 모델에 필수적인 대규모 처리량을 제공합니다.
NVIDIA Blackwell 및 Rubin 아키텍처는 입력 값을 분해하고 고처리량의 저정밀 Tensor 코어를 활용하여 FP32 및 FP64 행렬 연산을 에뮬레이션할 수 있습니다. 이 접근 방식은 네이티브 IEEE754 정확도에 필적하거나 이를 능가하면서 성능과 에너지 효율을 크게 향상시킬 수 있습니다. 복잡한 소프트웨어 기반 알고리즘과 고정소수점 연산을 활용함으로써, 에뮬레이션은 기존의 고정밀 하드웨어 실행 방식에 대한 제어 가능하고 매우 효율적인 대안을 제공합니다.
NVIDIA Blackwell 아키텍처는 GPT-MoE-1.8T와 같은 대규모 모델에서 이전 NVIDIA Hopper™ 세대 대비 30배의 성능 향상을 제공합니다. 이러한 성능 향상은 5세대 Tensor 코어를 통해 가능해집니다. NVIDIA Blackwell Tensor 코어는 커뮤니티 정의 마이크로스케일링 포맷을 포함한 새로운 정밀도를 추가하여, 더 높은 정밀도를 대처할 때 더 나은 정확도와 교체 용이성을 제공합니다.
생성형 AI 모델의 규모와 복잡성이 급격히 증가함에 따라, 훈련과 추론 성능을 향상시키는 것이 중요합니다. 이러한 컴퓨팅 요구를 충족하기 위해 NVIDIA Blackwell Tensor 코어는 커뮤니티 정의 마이크로스케일링 포맷을 포함한 새로운 양자화 포맷과 정밀도를 지원합니다.
2세대 Transformer Engine은 맞춤형 NVIDIA Blackwell Tensor Core 기술을 NVIDIA® TensorRT™-LLM 및 NeMo™ Framework의 혁신과 결합하여, 거대 언어 모델(LLM) 및 전문가 혼합(MoE) 모델의 추론과 학습을 가속화합니다. Transformer Engine은 Tensor 코어의 FP4 정밀도를 기반으로 구동되며, 현재 및 차세대 MoE 모델에서 높은 정확성을 유지하면서 성능과 효율성을 두 배로 향상시킵니다.
Transformer Engine은 실시간 성능을 바탕으로 오늘날의 LLM 대중화를 이끌고 있습니다. 엔터프라이즈는 저렴한 비용으로 최첨단 생성형 AI 모델을 배포하여 비즈니스 프로세스를 최적화할 수 있습니다.
Tensor 코어는 하드웨어, 네트워킹, 소프트웨어, 라이브러리는 물론 NVIDIA NGC™ 카탈로그의 최적화된 AI 모델 및 애플리케이션까지 통합된 NVIDIA 데이터 센터 솔루션의 핵심 구성 요소입니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| 지원되는 Tensor 코어 정밀도 | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, | NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8, |
| 지원되는 CUDA® 코어 정밀도 | FP64, FP32, INT32, FP16, BF16 | FP64, FP32, FP16, BF16 |
*예비 사양은 변경될 수 있습니다.
NVIDIA Vera Rubin 플랫폼에 대해 자세히 알아보세요.