Inference Performance – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Thu, 10 Apr 2025 07:21:59 +0000 ja hourly 1 NVIDIA のフルスタック ソリューションで AI 推論のパフォーマンスを最適化 http://www.open-lab.net/ja-jp/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/ Thu, 10 Apr 2025 07:21:58 +0000 http://www.open-lab.net/ja-jp/blog/?p=3287 Reading Time: 2 minutes AI 搭載アプリケーションの急速な増加に伴い、開発者と AI インフラは、最先端のパフォーマンスを提供しつつ、運用の複雑さとコストを管理するという課題に直面しています。これにより、これまでにないほどの高い要求が両者に課さ … Continued]]> Reading Time: 2 minutes AI 搭載アプリケーションの急速な増加に伴い、開発者と AI インフラは、最先端のパフォーマンスを提供しつつ、運用の複雑さとコストを管理するという課題に直面しています。これにより、これまでにないほどの高い要求が両者に課されています。 NVIDIA は、AI 推論の可能性を再定義し、これまで以上に高速で、効率的かつスケーラブルなソリューションを提供するために、フルスタックのイノベーションを通じて開発者を支援しており、その範囲はチップ、システム、ソフトウェアにまで及びます。 6 年前、NVIDIA は、高スループットで遅延が重大な課題となる本番環境アプリケーションを構築する開発者向けに、特別設計された AI 推論サーバーの構築に著手しました。當時多くの開発者は、

Source

]]>
3287
NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化 http://www.open-lab.net/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/ Fri, 08 Nov 2024 05:57:27 +0000 http://www.open-lab.net/ja-jp/blog/?p=3095 Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 … Continued]]> Reading Time: 2 minutes 以前のブログ記事では、key-value (KV) キャッシュを CPU メモリにオフロードして再利用することで、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を x86 ベースの NVIDIA H100 Tensor コア GPU で最大 14 倍、NVIDIA GH200 Superchip で最大 28 倍に高速化できる方法をご紹介しました。本記事では、KV キャッシュの再利用技術と、TTFT のさらなる高速化を実現するベストプラクティスについて解説します。 LLM モデルは、質問回答やコード生成など、多くのタスクで急速に採用されています。応答を生成するにあたり、これらのモデルはまず、ユーザーのプロンプトをトークンへ変換し、

Source

]]>
3095
NVIDIA GH200 Superchip が、Llama モデルとのマルチターン インタラクションの推論を 2 倍高速化 http://www.open-lab.net/ja-jp/blog/nvidia-gh200-superchip-accelerates-inference-by-2x-in-multiturn-interactions-with-llama-models/ Mon, 28 Oct 2024 07:26:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=3009 Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するに … Continued]]> Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するには、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を最小限に抑える必要がありますが、スループットを向上するには、1 秒あたりのトークン數を増やす必要があります。一方の側面を改善すると、もう一方の側面が悪化することが多いため、データ センター、クラウド サービス プロバイダー (CSP)、AI アプリケーション プロバイダーにとって、適切なバランスを見つけることが困難になっています。 NVIDIA GH200 Grace Hopper Superchip を活用すると、

Source

]]>
3009
人人超碰97caoporen国产