Hao Wang – NVIDIA 技術ブログ
http://www.open-lab.net/ja-jp/blog
Wed, 18 Dec 2024 09:21:20 +0000
ja
hourly
1
-
NVIDIA GH200 Superchip が、Llama モデルとのマルチターン インタラクションの推論を 2 倍高速化
http://www.open-lab.net/ja-jp/blog/nvidia-gh200-superchip-accelerates-inference-by-2x-in-multiturn-interactions-with-llama-models/
Mon, 28 Oct 2024 07:26:00 +0000
http://www.open-lab.net/ja-jp/blog/?p=3009
Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するに … Continued]]>
Reading Time: 2 minutes 本番環境で大規模言語モデル (LLM) をデプロイする際に、ユーザーのインタラクティブ性の強化と、システムのスループット向上との間で難しいトレードオフを迫られることがよくあります。ユーザーのインタラクティブ性を強化するには、最初のトークンが出力されるまでの時間 (TTFT: Time To First Token) を最小限に抑える必要がありますが、スループットを向上するには、1 秒あたりのトークン數を増やす必要があります。一方の側面を改善すると、もう一方の側面が悪化することが多いため、データ センター、クラウド サービス プロバイダー (CSP)、AI アプリケーション プロバイダーにとって、適切なバランスを見つけることが困難になっています。 NVIDIA GH200 Grace Hopper Superchip を活用すると、
Source
]]>
3009
人人超碰97caoporen国产