Triton Inference Server – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Wed, 28 Feb 2024 07:59:59 +0000 ja hourly 1 LLM テクニックの習得: 推論の最適化 http://www.open-lab.net/ja-jp/blog/mastering-llm-techniques-inference-optimization/ Fri, 17 Nov 2023 06:31:10 +0000 http://www.open-lab.net/ja-jp/blog/?p=2277 Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニ … Continued]]> Reading Time: 6 minutes Transformer 層を積み重ねて大規模なモデルを作成すると、精度が向上し、Few-shot Learning 能力を獲得し、さらには幅広い言語タスクで人間に近い創発的な能力が得られます。これらの基盤モデルはトレーニングにコストがかかり、推論中にメモリと計算を大量に消費する可能性があります (継続的にかかるコスト)。現在、最もポピュラーな大規模言語モデル (LLM)では、パラメーターのサイズは數百億から數千億に達することがあり、ユース ケースによっては長い入力 (またはコンテキスト) の取り込みが必要になる場合があり、これによって費用も増加する可能性があります。 この投稿では、LLM 推論における最も差し迫った課題と、いくつかの実用的な解決策について説明します。読者に、Transformer のアーキテクチャ、

Source

]]>
2277
NVIDIA TensorRT-LLM が NVIDIA H100 GPU 上で大規模言語モデル推論をさらに強化 http://www.open-lab.net/ja-jp/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/ Fri, 08 Sep 2023 01:18:36 +0000 http://www.open-lab.net/ja-jp/blog/?p=2019 Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、A … Continued]]> Reading Time: 3 minutes 大規模言語モデルは驚くべき新機能を提供し、AI で実現できる領域を拡大しています。しかし、その大きなサイズと特有の実行特性は、費用対効果の高い方法で使用することを困難にすることがあります。 NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks の一部)、OctoML、ServiceNow、Tabnine、Together AI、Uber などの主要な企業と緊密に協力し、LLM の推論の高速化と最適化に取り組んできました。 これらのイノベーションは、オープンソースの NVIDIA TensorRT-LLM ソフトウェアに統合され、Ampere、Lovelace、Hopper GPU に対応し、

Source

]]>
2019
NVIDIA FasterTransformer による KoGPT の推論高速化の向上 http://www.open-lab.net/ja-jp/blog/increasing-inference-acceleration-of-kogpt-with-fastertransformer/ Tue, 25 Apr 2023 07:41:00 +0000 http://www.open-lab.net/ja-jp/blog/?p=1702 Reading Time: 2 minutes Transformer は、現在最も影響力のある AI モデル アーキテクチャの 1 つであり、將來の AI 研究開発の方向性を形作っています。自然言語処理 (NLP) のツールとして最初に発明された Transform … Continued]]> Reading Time: 2 minutes Transformer は、現在最も影響力のある AI モデル アーキテクチャの 1 つであり、將來の AI 研究開発の方向性を形作っています。自然言語処理 (NLP) のツールとして最初に発明された Transformer は、現在、コンピューター ビジョン、自動音聲認識、分子構造分類、金融データ処理など、ほぼすべての AI タスクで使用されています。 韓國では、Kakao Brain が Transformer アーキテクチャに基づいた高精度の大規模言語モデル (LLM)、KoGPT を開発しました。大規模な韓國のデータセットでトレーニングし、NVIDIA FasterTransformer を使用して最適化することに成功しました。 この投稿では、NVIDIA と Kakao Brain が…

Source

]]>
1702
アンサンブル モデルによる NVIDIA Triton Inference Server 上での ML モデル パイプラインのサービング http://www.open-lab.net/ja-jp/blog/serving-ml-model-pipelines-on-nvidia-triton-inference-server-with-ensemble-models/ Mon, 13 Mar 2023 08:12:52 +0000 http://www.open-lab.net/ja-jp/blog/?p=1647 Reading Time: 5 minutes 多くの本番稼働レベルの機械學習 (ML: Macine Learning) アプリケーションでは、推論は単一 ML モデル上でフォワード パスを実行することに限定されません。代わりに、ML モデルのパイプラインを実行する … Continued]]> Reading Time: 5 minutes 多くの本番稼働レベルの機械學習 (ML: Macine Learning) アプリケーションでは、推論は単一 ML モデル上でフォワード パスを実行することに限定されません。代わりに、ML モデルのパイプラインを実行する必要があることが多いです。例えば、対話型 AI パイプラインは、入力された音聲波形をテキストに変換する自動音聲認識 (ASR: Automatic Speech Recognition) モジュール、入力を理解して適切な応答を提供する大規模言語モデル (LLM: Large Language Model) モジュール、LLM の出力から音聲を生成するテキスト読み上げ (TTS: text-to-speech) モジュールの 3 つから構成されています。 また、テキストから畫像へ変換するアプリケーションでは、

Source

]]>
1647
人人超碰97caoporen国产