Tuan Nguyen – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 28 Nov 2024 08:54:45 +0000 zh-CN hourly 1 196178272 NVIDIA NeMo Curator 實現高質量越南語數據處理 http://www.open-lab.net/zh-cn/blog/processing-high-quality-vietnamese-language-data-with-nvidia-nemo-curator/ Tue, 19 Nov 2024 08:44:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=12184 Continued]]> 開源大語言模型(LLMs) 在英語方面表現出色,但難以與其他語言(尤其是東南亞語言)搭配使用。這主要是由于缺乏這些語言的訓練數據、對當地文化的理解有限,以及 token 不足以捕捉獨特的語言結構和表達。 為了充分滿足客戶需求,非英語國家地區的企業必須超越通用模型,并對其進行定制,以捕捉當地語言的細微差別,確保客戶體驗無縫且有影響力。 在這篇博文中,我們將探討 Viettel Solutions (Viettel Corporation 快速發展的子公司)如何利用 NVIDIA NeMo Curator 處理高質量的 越南語數據 來訓練 Llama 3 ViettelSolution 8B,這是一種先進的 LLM,現在排名在 VMLU 排行榜的前列。NeMo Curator 是一款 GPU 加速的數據管護工具,可為預訓練 LLM 提供大規模、高質量的數據集。

Source

]]>
12184
人人超碰97caoporen国产