Xianchao Wu – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Tue, 17 Dec 2024 03:05:46 +0000 ja hourly 1 NeMo Curator を使った日本語テキスト データのドメイン分類 http://www.open-lab.net/ja-jp/blog/domain-classification-of-japanese-text-data-using-nemo-curator/ Tue, 17 Dec 2024 03:05:44 +0000 http://www.open-lab.net/ja-jp/blog/?p=3018 Reading Time: 3 minutes NeMo Curator は、日本のソブリン LLM の構築や更新のためのデータセットを準備するために、最近、日本語をサポートする多言語ドメイン分類器をリリースしました。ドメイン固有の LLM を構築している LLM グ … Continued]]> Reading Time: 3 minutes NeMo Curator は、日本のソブリン LLM の構築や更新のためのデータセットを準備するために、最近、日本語をサポートする多言語ドメイン分類器をリリースしました。ドメイン固有の LLM を構築している LLM グループが 5 つ以上あり、このチュートリアルは研究者やエンジニアの方に初歩的なガイダンスをご紹介します。 金融や醫療大規模言語 GPT モデルをトレーニングするためには、領域分類モデルが必要になります。領域分類モデルは、以下の點で重要な役割を果たします。 このモデルは、ドキュメントを以下のような 27 のドメイン クラスのいずれかに分類するテキスト分類モデルです: 「アダルト」、「蕓術と娯楽」、「自動車と乗り物」、「美容とフィットネス」、「書籍と文學」、「ビジネスと工業」、

Source

]]>
3018
人人超碰97caoporen国产