NVIDIA Tensor コア

エージェント型 AI のためのこれまでにない高速化。

Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで精度を維持し、セキュリティを強化しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイパフォーマンスコンピューティング (HPC) タスクをこれまで以上に高速化します。兆単位パラメータ AI モデルのトレーニングから画期的な推論パフォーマンスの達成まで、NVIDIA Tensor コアは、最新の AI ファクトリー向けのすべてのワークロードを高速化します。

はじめに
NVIDIA Rubin
NVIDIA Blackwell
仕様

はじめに
NVIDIA Rubin
NVIDIA Blackwell
仕様

革新的な AI トレーニング

16 ビット精度で数兆パラメータの生成 AI モデルをトレーニングするには、数か月かかることがあります。 NVIDIA Tensor コアは、4 ビットフォーマット並みの速度と効率性に 16 ビットの精度を兼ね備えた画期的なフォーマットである NVFP4 を搭載しています。 Transformer Engine に支えられた NVFP4 は、マイクロブロックスケーリングを活用し、スループットを劇的に向上させ、メモリフットプリントを削減します。 CUDA-X™ ライブラリによるネイティブフレームワークのサポートにより、このイノベーションは次世代フロンティアモデルのトレーニングから収束までの時間を大幅に短縮します。

画期的な推論

信頼性の高い推論デプロイには、高スループットで低遅延を実現しながら、利用率を最大化することが重要です。NVIDIA Rubin プラットフォームは、第 5 世代 Tensor コアで NVFP4 パフォーマンスを向上させる、強化された Transformer Engine を搭載しています。同時に、精度を維持し、最大 50 petaFLOPS (PFLOPS) の NVFP4 推論を可能にします。 Transformer Engine は、NVIDIA Blackwell と完全な互換性を持つため、シームレスなアップグレードを可能にします。そのため、これまでに最適化されたコードは、NVIDIA Rubin に簡単に移行できます。

Tensor コアにより業界標準の MLPerf 推論ベンチマークで NVIDIA が最高記録を達成。

先進的な HPC

HPC は現代科学の基礎となる柱です。次世代の新しい発見を解き明かすため、科学者たちはシミュレーションを利用して、創薬に向けて複雑な分子の理解を深め、物理学を用いてエネルギー源の可能性を特定し、大気データを活用して異常気象のパターンの予測精度を上げ、それに備えたりします。NVIDIA Tensor コアは、FP64 や FP32 など、あらゆる精度を提供し、必要な最高の精度で科学的コンピューティングを高速化します。

HPC SDK は、NVIDIA プラットフォーム向け HPC アプリケーションを開発するために不可欠なコンパイラ、ライブラリ、ツールを提供します。

NVIDIA Rubin Tensor コア

強化された第 5 世代

NVIDIA Rubin プラットフォームは、強化された第 5 世代 Tensor コアを導入しています。最新の AI ファクトリーを高速化するために設計されており、4 ビットの狭精度 NVFP4 と FP8 演算のサポートを最適化しています。これらの Tensor コアと NVIDIA Rubin のストリーミングマルチプロセッサ内の拡張された特殊機能ユニットを緊密に統合することで、プラットフォームはアテンションメカニズムとスパースコンピューティングパスを大幅に高速化し、モデルの精度を損なうことなく演算密度とエネルギー効率の両方を向上させます。

50 PFLOPS Transformer Engine
エミュレーション

50 PFLOPS Transformer Engine

次世代のエージェント型 AI を強化する NVIDIA Rubin GPU は、第 5 世代 Tensor コアと NVFP4 精度を活用し、推論効率を最大化する 50 petaFLOPS の Transformer Engine を搭載しています。このアーキテクチャの飛躍は、NVIDIA Vera Rubin NVL72 システムにおける NVFP4 推論において 3,600 PFLOPS までシームレスに拡張され、リアルタイム推論モデルに不可欠な大規模なスループットを実現します。

エミュレーション

NVIDIA Blackwell および Rubin アーキテクチャは、入力値を分解し、高スループットで低精度の Tensor コアを活用することで、FP32 および FP64 マトリクス演算をエミュレートできます。このアプローチにより、ネイティブ IEEE754 の精度に匹敵するか、それ以上の精度を達成しながら、パフォーマンスとエネルギー効率を大幅に向上させることができます。複雑なソフトウェア主導のアルゴリズムと固定小数点演算を活用することで、エミュレーションは、従来の高精度ハードウェア実行方法に代わる、制御された非常に効率的な代替手段を提供します。

NVIDIA Blackwell Tensor コア

第 5 世代

NVIDIA Blackwell アーキテクチャは、GPT-MoE-1.8T などの大規模モデルにおいて、前世代の NVIDIA Hopper™ と比較して、30 倍の高速化を実現します。このパフォーマンスの向上は、第 5 世代 Tensor コアにより実現されました。 Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリングフォーマットを含む新しい精度を導入し、より優れた正確性を備え、さらに高い精度への容易な置き換えを実現します。

NVIDIA Blackwell アーキテクチャの詳細を見る

新しい精度
Transformer Engine

新しい精度フォーマット

生成 AI モデルのサイズと複雑性は爆発的に増加しており、トレーニングと推論のパフォーマンスを向上させることが重要になります。これらのコンピューティングニーズを満たすために、NVIDIA Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリングフォーマットなど、新しい量子化フォーマットと精度をサポートしています。

第 2 世代 Transformer Engine

この第 2 世代の Transformer Engine ではカスタムの NVIDIA Blackwell Tensor コアテクノロジと革新的な NVIDIA® TensorRT™-LLM および NeMo™ フレームワークを組み合わせ、大規模言語モデル (LLM) と混合エキスパート (MoE) モデルの推論とトレーニングを高速化します。Transformer Engine は、Tensor コアの FP4 精度を活用し、現在および次世代 MoE モデルにおいて高い精度を維持しながら、パフォーマンスと効率性を倍増させます。

Transformer Engine は、リアルタイムのパフォーマンスによって今日の LLM の普及を推進します。企業は、最新世代の生成 AI モデルを手ごろな価格で導入することで、ビジネスプロセスを最適化することができます。

AI と HPC の最もパワフルなエンドツーエンドデータセンタープラットフォーム

ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC™ カタログのアプリケーションが組み込まれた完全な NVIDIA データセンターソリューションにおいて、極めて重要な構成要素になるのが Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

	NVIDIA Rubin	NVIDIA Blackwell
サポートされている Tensor コア精度	NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、	NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、
サポートされている CUDA^® コア精度	FP64、FP32、INT32、FP16、BF16	FP64、FP32、FP16、BF16

*仕様は変更される場合があります。

NVIDIA Vera Rubin プラットフォームの詳細を見る

詳細を見る