Phi Nguyen – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 18 May 2023 05:31:33 +0000 zh-CN hourly 1 196178272 使用 Alpa 和 Ray 在大型 GPU 集群中高效擴展 LLM 訓練 http://www.open-lab.net/zh-cn/blog/efficiently-scale-llm-training-across-a-large-gpu-cluster-with-alpa-and-ray/ Mon, 15 May 2023 05:21:27 +0000 http://www.open-lab.net/zh-cn/blog/?p=6976 Continued]]> 近年來,大型語言模型( LLM )的數量激增,它們超越了傳統的語言任務,擴展到生成式人工智能這包括像 ChatGPT 和 Stable Diffusion 這樣的模型。隨著這種對生成人工智能的關注不斷增長,人們越來越需要一種現代機器學習( ML )基礎設施,使日常從業者能夠訪問可擴展性。 本文介紹了兩個開源框架,Alpa.ai和Ray.io,共同努力實現訓練 1750 億參數所需的規模JAX transformer具有流水線并行性的模型。我們詳細探討了這兩個集成框架,以及它們的組合架構、對開發人員友好的 API 、可伸縮性和性能。 Alpa 和 Ray 的核心都是為了提高開發人員的速度和有效地擴展模型。 Alpa 框架的流水線并行功能可以輕松地在多個 GPU 上并行化大型模型的計算,并減輕開發人員的認知負擔。 Ray 提供了一個分布式計算框架,可以簡化跨多臺機器的資源擴展和管理。

Source

]]>
6976
人人超碰97caoporen国产