Training AI Models – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Mon, 03 Feb 2025 08:20:43 +0000 ja hourly 1 Hymba ハイブリッド ヘッド アーキテクチャが小規模言語モデルのパフォーマンスを向上 http://www.open-lab.net/ja-jp/blog/hymba-hybrid-head-architecture-boosts-small-language-model-performance/ Fri, 22 Nov 2024 08:01:01 +0000 http://www.open-lab.net/ja-jp/blog/?p=3108 Reading Time: 4 minutes Transformer は、その Attention ベースのアーキテクチャによる、強力なパフォーマンス、並列化能力、および KV (Key-Value) キャッシュを通じた長期記憶のおかげで、言語モデル (LM) の主 … Continued]]> Reading Time: 4 minutes Transformer は、その Attention ベースのアーキテクチャによる、強力なパフォーマンス、並列化能力、および KV (Key-Value) キャッシュを通じた長期記憶のおかげで、言語モデル (LM) の主流となっています。しかし、二次計算コストと高いメモリ要求により、効率性に課題が生じています。これに対し、Mamba や Mamba-2 のような狀態空間モデル (SSMs) は、複雑さを一定にして効率的なハードウェア最適化を提供しますが、メモリ想起タスクが苦手でそれは一般的なベンチマークでのパフォーマンスに影響を與えています。 NVIDIA の研究者は最近、効率性とパフォーマンスの両方を向上させるために、Transformer の Attention メカニズムを SSM と統合したハイブリッド…

Source

]]>
3108
Transformer Engine ではじめる FP8 Training (導入編) http://www.open-lab.net/ja-jp/blog/introduction-to-fp8-training-using-transformer-engine/ Thu, 18 Jul 2024 06:57:44 +0000 http://www.open-lab.net/ja-jp/blog/?p=2718 Reading Time: 5 minutes Transformer Engine とは Transformer Engine とは、Transformer モデルの學習を効率的に行うためのオープンソース ライブラリです。 が含まれており、GPU における Tran … Continued]]> Reading Time: 5 minutes Transformer Engine とは、Transformer モデルの學習を効率的に行うためのオープンソース ライブラリです。 が含まれており、GPU における Transformer モデルの學習効率を大幅に向上させることができます。特に FP8 については、記事執筆時點では Hopper/Ada Lovelace アーキテクチャなどの最新の GPU に搭載はされているものの、深層學習フレームワークでは対応する OP がまだ実裝されていない狀況であるため、Transformer Engine は FP8 を活用して GPU の性能を最大限に引き出すために必須のライブラリといえます。 FP8 は、名前の通り 8bit で浮動小數點數を表現するデータ フォーマットです。

Source

]]>
2718
LLM テクニックの習得: トレーニング http://www.open-lab.net/ja-jp/blog/mastering-llm-techniques-training/ Thu, 16 Nov 2023 09:24:04 +0000 http://www.open-lab.net/ja-jp/blog/?p=2263 Reading Time: 3 minutes 大規模言語モデル (LLM) は、非常に大規模なデータセットを使用して言語を認識、要約、翻訳、予測、生成できる Transformer ネットワークを使用して構築された生成 AI モデルのクラスです。ご存知の通り、LLM … Continued]]> Reading Time: 3 minutes 大規模言語モデル (LLM) は、非常に大規模なデータセットを使用して言語を認識、要約、翻訳、予測、生成できる Transformer ネットワークを使用して構築された生成 AI モデルのクラスです。ご存知の通り、LLM は社會を変革する可能性を秘めていますが、このような基盤モデルのトレーニングは非常に困難です。 このブログでは、Transformer ネットワークを使用して構築された LLM の背後にある基本原則を、モデル アーキテクチャ、アテンション メカニズム、埋め込み手法、基盤モデルのトレーニング戦略にわたり説明します。 モデル アーキテクチャは Transformer ネットワークのバックボーンを定義し、モデルの能力や制限を広く決定づけます。 LLM のアーキテクチャは、しばしば、エンコーダー、

Source

]]>
2263
人人超碰97caoporen国产