• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Top Stories

    NVIDIA のフルスタック ソリューションで AI 推論のパフォーマンスを最適化

    Reading Time: 2 minutes

    AI 搭載アプリケーションの急速な増加に伴い、開発者と AI インフラは、最先端のパフォーマンスを提供しつつ、運用の複雑さとコストを管理するという課題に直面しています。これにより、これまでにないほどの高い要求が両者に課されています。

    NVIDIA は、AI 推論の可能性を再定義し、これまで以上に高速で、効率的かつスケーラブルなソリューションを提供するために、フルスタックのイノベーションを通じて開発者を支援しており、その範囲はチップ、システム、ソフトウェアにまで及びます。

    高スループットで低遅延の推論を簡単に展開

    6 年前、NVIDIA は、高スループットで遅延が重大な課題となる本番環境アプリケーションを構築する開発者向けに、特別設計された AI 推論サーバーの構築に著手しました。當時多くの開発者は、カスタムメイドでフレームワークに縛られるサーバーと格闘していました。これらのサーバーによって複雑さを増大させ、それに伴い運用コストも増加するため、遅延とスループットに関連する厳格なサービスレベル契約を満たすのに苦労していました。

    この問題に対処するため、NVIDIA は、あらゆる AI フレームワークのモデルにサービスを提供できるオープンソース プラットフォームである NVIDIA Triton Inference Server を開発しました。Triton は、フレームワークが限定される推論サーバーを統合することで、AI 推論の展開を効率化し、AI 予測能力を向上させました。このアプローチにより、Triton は最も広範に採用される NVIDIA オープンソース プロジェクトの 1 つとなり、現在では何百社もの大手組織が本番利用する AI モデルを効率的に展開するために使用しています。

    Triton に加えて、NVIDIA は AI 推論ソリューションの幅広いエコシステムを提供しています。パワフルでカスタマイズ可能なツールを求める開発者に対しては、粒度の細かい最適化を可能にする API を備えた、高性能なディープラーニング推論ライブラリである NVIDIA TensorRT を提供しています。NVIDIA NIM マイクロサービスは、クラウド、データセンター、ワークステーション全體に AI モデルを展開するための柔軟なフレームワークを提供します。

    AI 推論ワークロードの最適化

    今日の推論はフルスタックの問題であり、そのインフラを効果的に活用するには、高性能なインフラと効率的なソフトウェアが必要です。さらに、モデルサイズが拡大し続け、遅延に対する制約が厳しくなるにつれて、推論ワークロードの課題も増え続けています。その一方で、これらの AI サービスを活用するユーザーの數も増加の一途をたどっています。また、モデルのインテリジェンスをスケーリングするための新しい枠組みである推論時間 スケーリングが導入されたことで、推論中により多くの計算リソースが投入され、モデルのパフォーマンスが向上しています。

    この傾向は、基盤となるハードウェアプラットフォームが同じであっても、引き続き推論パフォーマンスを向上させることが重要であることを意味します。モデル並列処理、混合精度トレーニング、プルーニング、量子化、データ前処理の最適化などの確立された手法を最先端の推論技術と組み合わせることで、開発者はスピード、拡張性、コスト効率などの面で著しい向上を実現できます。

    TensorRT-LLM ライブラリには、大規模言語モデル (LLM) の推論パフォーマンスを高速化する多くの最先端の機能が組み込まれています。その詳細は以下の通りとおりです。

    Prefill と KV キャッシュの最適化

    • キー バリュー (KV) キャッシュの早期再利用: ユーザー間のシステム プロンプトを再利用する KV キャッシュの早期再利用機能は、最初のトークン生成までの時間(TTFT)を最大 5 倍に高速化します。柔軟な KV ブロック サイジングと効率的なエビクション プロトコルによってシームレスなメモリ管理が実現され、マルチユーザー環境でも応答時間が短縮されます。
    • チャンク プリフィル: よりスマートに展開するために、チャンク プリフィル機能はプリフィル段階を小さなタスクへと分割し、GPU の使用率を向上させることで遅延を軽減します。このイノベーションによって展開が簡素化され、ユーザーの需要が変動した場合でも一貫したパフォーマンスが保証されます。
    • マルチターン相互作用を強化: NVIDIA GH200 Superchip アーキテクチャが KV キャッシュのオフロードを効率化し、高いスループットを維持しながら、Llama モデルとのマルチターン相互作用を最大 2 倍に改善します。

    デコードの最適化

    • 長いシーケンスに対するマルチブロック アテンション: 長い入力シーケンスに伴う課題に対処するため、TensorRT-LLM マルチブロック アテンション機能は、ストリーミングするマルチプロセッサ (SM) 全體にタスクを分散させることで GPU の使用率を最大化します。これによりシステムのスループットが 3 倍以上に向上し、ハードウェアコストを追加することなく、より大きなコンテキスト長をサポートできるようになります。
    • スループットを高速化する投機的デコーディング: より大きなターゲット モデルと小さなドラフト モデルを並行して活用する投機的デコーディングにより、推論スループットを最大 3.6 倍にまで改善することができます。このアプローチによって、モデル出力の高速かつ高精度な生成が保証され、大規模な AI アプリケーションのワークフローが効率化されます。
    • Medusa による推論デコーディング: TensorRT-LLM の最適化機能には、Medusa の推論デコーディング アルゴリズムが含まれています。Medusa は複數の後続トークンを同時に予測することで、NVIDIA HGX H200 プラットフォーム上の Llama 3.1 モデルのスループットを最大 1.9 倍向上させます。このイノベーションにより、カスタマー サポートやコンテンツ作成など、LLM に依存するアプリケーションの応答速度を向上することができます。

    マルチ GPU 推論

    • MultiShot 通信プロトコル: 従來の Ring AllReduce オペレーションは、マルチ GPU シナリオではボトルネックになる可能性があります。NVSwitch を搭載した TensorRT-LLM MultiShot は、GPU の數に関係なく、通信ステップをわずか 2 つに減らします。このイノベーションにより、AllReduce のスピードは最大 3 倍に向上され、低遅延推論がスケーラブルで効率的なものになります。
    • ?高並列性効率のためのパイプライン並列化: 並列処理機能は、GPU がデータを迅速かつ効率的に転送できることが求められるため、パフォーマンスを最大化するには堅牢な GPU 間インターコネクトファブリックが必要です。NVIDIA H200 Tensor コア GPU に備わるパイプライン並列処理機能は、Llama 3.1 405B のスループットを 1.5 倍向上させ、MLPerf 推論ベンチマークでは Llama 2 70B の速度を 1.2 倍向上させてその汎用性を示しました。MLPerf 推論は、MLCommons コンソーシアムが開発した業界標準の推論パフォーマンス ベンチマーク スイートです。
    • 大規模な NVLink ドメイン: NVLink スイッチ システムを使用して接続された 32 個の NVIDIA GH200 Grace Hopper Supership を搭載した NVIDIA GH200 NVL32 システムは TensorRT-LLM の改善により、Llama モデルにおいて TTFT を最大 3 倍に高速化します。最大 127 ペタフロップスの AI コンピューティング性能を誇る次世代アーキテクチャであり、AI アプリケーションにおけるかつてないリアルタイム応答性を実現します。

    量子化と低精度コンピューティング

    • 精度とパフォーマンスを向上させる NVIDIA TensorRT モデル オプティマイザー: NVIDIA TensorRT モデル オプティマイザーに含まれる NVIDIA カスタム FP8 量子化レシピは、精度面を犠牲にすることなく最大 1.44 倍のスループットを実現します。この最適化により、レイテンシとハードウェア要件を削減することで、要求の厳しいワークロードのコスト効率の高い展開が可能になります。
    • エンドツーエンドのフルスタック最適化: NVIDIA TensorRT ライブラリと FP8 Tensor コアのイノベーションにより、データ センターの GPU からエッジ システムにいたるまでの幅広いデバイスで高性能を実現します。NVIDIA は、Llama 3.2 のモデル コレクションを最適化し、優れたパフォーマンスを実現しました。、フルスタック ソフトウェアがさまざまな AI 展開環境において、いかに効率性を引き出すことができるかを実証しました。

    これらの機能に加え、Triton や TensorRT-LLM 內の多くの他の機能により、開発者はより高速で効率的な LLM (大規模言語モデル) を展開できるようになりました。これにより、より広範なタスクやユーザーの要求に対応することが可能になります。企業がカスタマー サービスを向上させ、複雑なプロセスを自動化し、データからより深いインサイトを得るための新しい機會が生まれます。

    推論パフォーマンスの評価

    世界クラスの推論性能を提供するには、チップ、システム、ソフトウェアといった完全なテクノロジ スタックが必要です。これらすべてがスループットの向上、トークンあたりのエネルギー消費の削減、コストの最小化に貢獻します。

    推論パフォーマンスの重要な尺度の 1 つが MLPerf 推論です。このベンチマークは、標準化された條件下で推論スループットを測定し、結果は広範なピアレビューの対象となります。このベンチマークは、AI の新しい進展を取り入れるために定期的に更新されます。これにより、組織はこれらの結果を基にプラットフォームの性能を評価することができます。

    最新の MLPerf 推論のラウンドに登場したのが NVIDIA Blackwell です。Llama 2 70B ベンチマークでは、NVIDIA H100 Tensor コア GPU と比較して最大 4 倍のパフォーマンスを発揮しました。この成果は、FP4 Tensor コアを搭載した第 2 世代の Transformer Engine、GPU あたり 8TB/秒のメモリ帯域幅を実現する超高速 HBM3e GPU メモリなど、Blackwell GPU のコアとなる數多くのアーキテクチャの革新による成果です。

    さらに、NVIDIA TensorRT-LLM を含む NVIDIA ソフトウェア スタックの多くの側面は、ベンチマークの厳格な精度目標を引き続き満たしながら、FP4 精度のサポートなどの Blackwell の新しい機能を活用できるように再設計されています。 さらに、NVIDIA TensorRT-LLM を含む NVIDIA ソフトウェア スタックの多くが再設計され、Blackwell の新しい機能、例えば FP4 精度のサポートを活用できるようになりました。それと同時に、ベンチマークの厳格な精度目標を引き続き満たしています。

    NVIDIA H200 Tensor コア GPUは、現在サーバー メーカーやクラウド サービス プロバイダーから入手可能で、データ センターカテゴリのすべてのベンチマークで優れた結果を達成しました。これには、新しく追加された Mixtral 8x7B の Mixture-of-Experts (MoE) LLM のほか、Llama 2 70B LLM および Stable Diffusion XL のテキストから畫像へのテストも含まれます。継続的にソフトウェアが改善された結果、Hopper アーキテクチャは前回のラウンドと比較して、推論性能が最大 27% 向上しました。

    8 基の H200 GPU を搭載したシステムで実行された NVIDIA Triton Inference Server は、MLPerf 推論 v4.1 の Llama 2 70B ベンチマークで、NVIDIA のベアメタル提出と比較してほぼ同等のパフォーマンスを達成しました。このことは、企業が機能の豊富な本番環境グレードの AI 推論サーバーと最高のスループット パフォーマンスのどちらかを選択する必要がなく、NVIDIA Triton を使用することでその両方を同時に達成できることが示されています。

    AI 推論の未來: 新たなトレンドとテクノロジ

    AI 推論を取り巻く環境は、畫期的な進歩や新興技術によって急速に進化しています。データ センター規模でのコンピューティング能力が向上したことで、より大規模なモデルの事前學習が可能になったことから、モデルはよりスマートになっています。GPT-MoE 1.8T などの Mixture of Experts モデル アーキテクチャが登場したことも、コンピューティング能力を効率化しながら、モデルの性能を向上させるのに役立つでしょう。これらの大規模モデルでは、それがデンス モデルであれスパース モデルであれ、各々の GPU の性能をはるかに向上させる必要があります。NVIDIA Blackwell アーキテクチャは、次世代の生成 AI 推論を推進することが期待されています。

    それぞれの Blackwell GPU には、FP4 を活用した第 2 世代の Transformer Engine と第 5 世代の Tensor コアが備わっています。低精度のデータ形式は計算スループットを向上させ、メモリ要件を減らすのに役立ちます。高い精度を維持しながらパフォーマンス面で大きな利點を実現するには、膨大な量のソフトウェア構築が必要となります。

    同時に、迅速にリアルタイムのスピードで最も要求の厳しいモデルにサービスを提供するには、多くの高性能 GPU が協力して応答を生成する必要があります。

    NVIDIA GB200 NVL72 ラックスケール ソリューションは、単一の巨大な GPU として機能する 72-GPU NVLink ドメインを作成します。GPT-MoE 1.8T リアルタイム推論では、前世代の Hopper GPU と比較して、スループットが最大 30 倍に向上します。

    さらに、新たなスケーリング法則となる Test Time Compute (テスト時間算) が出現したことで、さらに複雑なタスクへの応答の品質と精度を向上させる新たな方法も誕生しました。OpenAI o1 モデルで初めて導入されたこの新しいパラダイムは、最終結果を出力する前に多數の中間トークンを生成することで、モデルが「推論」できるようにします。推論モデルは、特に複雑な數學やコンピュータコードの生成などの分野で非常に役立ちます。この新しいパラダイムは、推論時により高い計算性能を必要とする新たなブレークスルーを促進することが期待されています。

    人工汎用知能への道は、データ センターの計算能力が飛躍的に進歩し続けるかどうかにかかっています。事前學習、自己學習、テスト時間のスケーリングはすべて、専門的に作成されたソフトウェアを実行する最先端のインフラストラクチャにかかっています。NVIDIA プラットフォームは急速に進化しており、1 年ごとの迅速なイノベーションのサイクルを持つことで、エコシステムが AI の最前線を継続的に押し広げることを可能にしています。

    今すぐ始める

    AI 推論を使い始める方法をご覧ください。NVIDIA AI 推論プラットフォームの詳細と、AI 推論パフォーマンスに関する最新情報について知ることができます。

    NVIDIA NIM マイクロサービスを迅速に展開する方法のデモをご覧いただくか、NVIDIA NIM で生成 AI を展開するための簡単なガイドをお読みください。TensorRT、TensorRT-LLM、TensorRT モデル オプティマイザー ライブラリを最適化したものの組み合わせは、NVIDIA NIM マイクロサービスを使用した本番環境対応の展開を通じてご利用いただけます。


    関連情報

    +1

    Tags

    人人超碰97caoporen国产