Quentin Anthony – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 30 Oct 2024 04:34:24 +0000 zh-CN hourly 1 196178272 使用經 NVIDIA NeMo Curator 處理的 Zyda-2 Open 5T-Token 數據集訓練高度準確的 LLM http://www.open-lab.net/zh-cn/blog/train-highly-accurate-llms-with-the-zyda-2-open-5t-token-dataset-processed-with-nvidia-nemo-curator/ Tue, 15 Oct 2024 04:30:53 +0000 http://www.open-lab.net/zh-cn/blog/?p=11735 Continued]]> 開源數據集顯著普及了對高質量數據的訪問,降低了開發者和研究人員訓練 尖端生成式 AI 模型 的門檻。通過免費訪問多樣化、高質量且精心策劃的數據集,開源數據集使開源社區能夠在前沿或接近前沿訓練模型,從而促進 AI 的快速發展。 Zyphra 使 AI 系統更易于使用,通過尖端架構探索性能前沿,并推進對強大模型的研究和理解。 為了實現其愿景,Zyphra 團隊一直與 NVIDIA NeMo Curator 團隊密切合作,創建 Zyda-2,這是一個開放、高質量的預訓練數據集,由令人印象深刻的英語 5T 令牌和 Zyda-1 的 5 倍大小組成。該數據集包含廣泛的主題和領域,可確保高度的多樣性和質量,這對于訓練像 Zamba 這樣的強大和競爭力強的模型至關重要。 與需要額外專業數據集的代碼和數學運算相比,

Source

]]>
11735
人人超碰97caoporen国产