1 兆トークンのデータセットをキュレーション: NVIDIA NeMo Data Curator のご紹介

Tue, 08 Aug 2023 07:18:55 +0000

Reading Time: 2 minutes 大規模言語モデル (LLM) スケーリング則における最新の開発では、モデルパラメーターの數をスケーリングする場合、トレーニングに使用されるトークンの數も同じ割合でスケーリングする必要があることが示されました。Chinchilla モデルや LLaMA モデルは、経験的に導き出されたこのスケーリング則を立証しており、これまで最先端と呼ばれてきたモデルの數々は、事前トレーニング中に使用されるトークンの総數に関してトレーニングが不十分だったことを示唆しています。こうした最近の開発動向を考えると、LLM にはこれまで以上に大規模なデータセットが必要であることは明らかです。しかし、必要性が明確であるにもかかわらず、LLM のトレーニングに使用する大規模なデータセットを作成するために開発されたソフトウェアやツールのほとんどは、

Source

]]>

pipelines – NVIDIA 技術ブログ

1 兆トークンのデータセットをキュレーション: NVIDIA NeMo Data Curator のご紹介