pipelines – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Wed, 06 Sep 2023 01:00:48 +0000 ja hourly 1 1 兆トークンのデータセットをキュレーション: NVIDIA NeMo Data Curator のご紹介 http://www.open-lab.net/ja-jp/blog/curating-trillion-token-datasets-introducing-nemo-data-curator/ Tue, 08 Aug 2023 07:18:55 +0000 http://www.open-lab.net/ja-jp/blog/?p=1909 Reading Time: 2 minutes 大規模言語モデル (LLM) スケーリング則における最新の開発では、モデル パラメーターの數をスケーリングする場合、トレーニングに使用されるトークンの數も同じ割合でスケーリングする必要があることが示されました。Chinc … Continued]]> Reading Time: 2 minutes 大規模言語モデル (LLM) スケーリング則における最新の開発では、モデル パラメーターの數をスケーリングする場合、トレーニングに使用されるトークンの數も同じ割合でスケーリングする必要があることが示されました。Chinchilla モデルや LLaMA モデルは、経験的に導き出されたこのスケーリング則を立証しており、これまで最先端と呼ばれてきたモデルの數々は、事前トレーニング中に使用されるトークンの総數に関してトレーニングが不十分だったことを示唆しています。 こうした最近の開発動向を考えると、LLM にはこれまで以上に大規模なデータセットが必要であることは明らかです。 しかし、必要性が明確であるにもかかわらず、LLM のトレーニングに使用する大規模なデータセットを作成するために開発されたソフトウェアやツールのほとんどは、

Source

]]>
1909
人人超碰97caoporen国产