• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 生成式人工智能/大語言模型

    應用具有推理能力的專用大語言模型(LLM)加速電池研究

    人工評估材料通常會拖慢電池創新等復雜領域的科學研究,限制了每天只有數十個候選材料的進展。在這篇博客文章中,我們探討了通過推理能力增強的領域適應型大語言模型 (LLM) 如何改變科學研究,尤其是在電池創新等高風險、復雜領域。我們深入探討了 SES AI 的 Molecular Universe LLM,這是一個具有 70B 參數的科學 LLM,展示了這種方法的實際應用。

    您將了解使用 NVIDIA NeMo Curator NVIDIA NeMo Framework NVIDIA DGX Cloud NVIDIA NIM 構建的訓練和推理工作流,以及如何結合領域自適應、指令調整和推理對齊等技術來加速科學發現,同時提高專家工作效率。

    簡介

    Flowchart depicting the Molecular Universe LLM training pipeline.
    圖 1。The Molecular Universe LLM 訓練管線

    LLM 在推進科學研究方面展現出巨大潛力,助力完成論文總結、綜合復雜見解和生成新穎假設等任務。然而,由于預訓練期間對專業術語和上下文知識的接觸有限,通用型 LLM 通常無法滿足特定領域的任務需求。

    為彌合這一差距,適應領域的 LLM 提供了一種更加可行的解決方案。域自適應預訓練 (DAPT) 通過精心策劃自定義和與領域相關的語料庫來擴展現有基礎模型 (例如 LLaMA) 的功能,而不是從零開始產生高昂的訓練成本和計算需求。

    這種方法顯著提高了科學等專業領域的性能,同時保留了原始模型的廣泛語言能力。此外,我們還對模型進行了微調,以增強其響應常規查詢和特定任務查詢的能力。雖然領域適應和指令調整可提高任務性能,但它們無法為模型配備推理能力。

    為彌補這一差距,我們引入了推理對齊,使模型能夠在邏輯上導航假設生成、思維鏈推理和自校正等過程。這些功能對于解決多步驟問題和推動材料探索至關重要。

    SES AI 是一家專門從事電池創新的公司,他們構建了一個專有模型 — Molecular Universe LLM,這是一個具有 70B 參數的大型自定義推理模型。它基于 Llama 3.1 70B,為特定領域的科學任務設定了新的基準,優于同類別的其他模型。

    它展示了一種計算高效的訓練和對齊策略,可將基礎模型轉換為高性能、領域自適應的模型,同時強調了將 DAPT、instruction tuning 和 reasoning-based fine-tuning 結合起來用于特定領域任務的有效性。

    Molecular Universe LLM 是一個由 AI 驅動的電池研究 LLM,利用高級推理對潛在的電解質溶劑和合成添加劑進行排序。以前,他們的科學家根據專業領域的專業知識對電解質溶劑和添加劑進行人工排名,這項工作僅限于每天評估幾十個候選化合物。

    通過整合長語境理解、結構化推理和專家級決策,這種方法凸顯了領域適應性推理模型如何加速科學創新的突破,顯著提高電池專家的工作效率。

    Molecular Universe LLM 在 NVIDIA DGX Cloud 上使用 NVIDIA NeMo 框架 通過三步流程進行訓練:

    這種方法可確保模型提供特定領域、上下文相關的高質量響應。通過將 Molecular Universe LLM 與 NVIDIA ALCHEMI GPU 加速模擬數據和 NVIDIA cuML 生成的分子圖集成, SES AI 將數十年的電池研究時間縮短到了幾個月。

    我們來深入探討構建此模型所涉及的步驟。

    A detailed workflow diagram illustrating the data pipeline and model training process for a scientific language model based on Llama 3.1.
    圖 2。用于訓練 Molecular Universe 推理模型的 End-to-end 工作流程

    基礎架構設置

    Molecular Universe LLM 在 NVIDIA DGX 云 上的 128 個 NVIDIA H100 GPU 上進行訓練,NVIDIA DGX 云是一個與領先云提供商共同設計的全托管 AI 訓練平臺。DGX 云包含 NVIDIA 管理的 Kubernetes 和 NVIDIA Run:ai ,用于工作負載優化、作業調度和編排。開發者可以立即開始在專用集群上運行分布式訓練,無需復雜的集群啟動或管理底層基礎設施。

    NVIDIA NeMo 框架 作為基于 NVIDIA DGX 云的 AI 開發平臺,可提供無縫的加速體驗,以高效地大規模構建、定制和部署生成式 AI 模型。它支持先進的模型和算法,同時通過 4D 并行和其他優化確保數千個 GPU 的高訓練吞吐量和可擴展性。

    借助 NVIDIA Run:ai,管理員能夠通過“項目”和“部門”編排 GPU 容量,確保為團隊分配所需的容量份額,以處理訓練工作負載。調度程序還支持工作負載突發,使工作負載能夠在集群有額外資源可用時利用額外的 GPU 容量。這可提高 GPU 利用率,同時尊重資源分配、更大限度地提高開發者工作效率并更大限度地縮短價值實現時間。

    Screenshot of the run:ai Workloads dashboard showing a PyTorchJob named 'mixtral-pretrain' running for 2 days, 20 hours, and 53 minutes.
    圖 3。NVIDIA DGX 云上運行的預訓練作業期間的 GPU 使用示例

    第 1 步:持續預訓練

    為了在電池研究中建立特定領域知識的堅實基礎,對 Llama3.1 70B 模型進行了持續的預訓練。這需要在大量精心策劃的科學文獻語料庫上進行訓練,使模型能夠獲得細致入微的理解和專業知識,這對于準確、上下文感知的響應至關重要。

    數據管護和處理

    預訓練語料庫包含來自同行評審期刊或預打印資源庫的 19M 篇開源論文。有關數據源的詳細信息,請參閱表 1。

    來自不同來源的 PDF 已轉換為純文本。在訓練之前,我們使用 NeMo Curator 提取和處理文檔,NeMo Curator 應用了先進的啟發式過濾和 GPU 加速的模糊重復數據刪除技術,包括 MinHash 和 Locality Sensitive Hashing。這種嚴格的工作流將原始樣本的數量減少了 19M 個,達到 17M 個獨特的高質量記錄。NeMo Curator 的預處理能力對于消除冗余、過濾低質量數據以及保留豐富的特定領域知識至關重要。

    數據源 文檔
    開源同行評審文獻 約 400 萬
    arXiv 140 萬
    ChemRxiv 2.6 萬
    開放研究 1200 萬
    PubChem 6 萬
    學術教科書或專著 80
    PLOS 20 萬
    表 1。用于 Domain-Adaptive Pre-training 的數據源細分

    模型架構和訓練細節

    Molecular Universe LLM Base 模型通過調整 LLaMA 3.1 70B 基礎模型的預訓練權重來構建。NeMo 框架用于模型的持續預訓練,利用先進的優化技術,包括 4D 并行、混合精度訓練和 Flash Attention。此外,NeMo 上下文并行在使模型能夠在不影響內存效率、速度或穩定性的情況下處理多達 8K 個 token 的長序列方面發揮了關鍵作用。

    該模型的輸入序列長度為 8192 個 token,每次向前傳遞時處理 524288 個 token。他們使用 128 個 NVIDIA H100 GPU 訓練該模型,在 bfloat16 精度下,總訓練時間為 144 小時。域自適應預訓練 (DAPT) 僅在原始預訓練中使用的部分 token 上執行,而且效率要高得多,只需約 1.5% 的預訓練總計算量。

    在初始步驟中,訓練和驗證損失曲線呈現快速下降趨勢,反映出領域適應迅速。隨著時間的推移,損失趨于穩定,表明收斂是有效的,沒有過擬合的跡象。

    第 2 步:通過監督式微調進行模型對齊

    為了使 Molecular Universe Base 模型與特定領域的知識保持一致,并提高指令遵循能力,我們采用了 Supervised Fine-Tuning (SFT) 。Supervised Fine-Tuning (SFT) 基于已標記示例訓練模型,以改進指令遵循和特定于任務的響應生成,尤其是在特定領域的上下文中。

    數據管護和處理

    SES 利用 NVIDIA Llama 3.1 70B NIM 生成合成數據 (SDG) ,以創建高質量的 SFT 數據集。他們對 50,000 篇論文進行了采樣,并在四個任務 (問答、總結、閱讀理解和多項選擇題) 中生成了 200,000 個指令樣本,其中 160,000 個用于訓練,40,000 個用于評估。

    最終的 SFT 數據集整合了來自 Daring-Anteater 數據集的 9 萬個常規聊天樣本,總計 25 萬個樣本,其中 SDG 提供了大多數,這凸顯了使用 NIM 生成特定領域訓練數據的有效性。

    模型架構和訓練細節

    然后,使用 LLaMA 3.1 70B 標記器對該數據集進行標記化,然后使用 NeMo 框架在多節點系統上使用 SFT 進行微調,從而生成最終的 Molecular Universe Chat 模型。該模型在 DGX Cloud 上使用 128 個 NVIDIA H100 GPU 和 NVIDIA Run:ai 軟件進行訓練,只需 32 小時即可完成。

    訓練和驗證損失曲線初始下降迅速,穩定在 400 步左右。經過 600 個步驟后,訓練損失略有增加,這表明可能存在對學習率的過擬合或敏感性。但是,驗證損失保持穩定,表明泛化性能強勁。

    第 3 步:使用高質量推理數據進行后訓練

    雖然基于科學文獻的領域自適應預訓練和基于指令的微調可增強模型處理一般和特定領域問題的能力,但它們并不擅長解決需要多步驟推理的復雜科學問題。

    為了克服這一問題,我們在 s1K Reasoning Data 中的精選樣本集 (~25,000 個樣本) 上對 Molecular Universe Chat 模型進行了微調。s1K Reasoning Data 包含高質量的難題,并提供了 Gemini Thinking 的推理跟蹤和解決方案。s1K 數據集經過篩選,可刪除帶有格式問題和問題的低質量樣本,這些問題可由基礎模型輕松回答,例如 Qwen2.5 7B Instruct 和 Qwen2.5 32B Instruct。

    此外,還使用了 LLM 將樣本聚類為主題類別 (例如 math, science) ,并在應用統一采樣時偏向于包含較長推理軌跡的示例,以更好地捕獲任務復雜性。對生成的數據樣本進行了進一步的去污處理,以刪除特定任務的基準測試,例如 GPQA Diamond。

    使用 NeMo 框架完成了訓練后監督微調,方法是將上下文長度增加到 16k,以考慮推理軌跡。這一步驟在 64 個 H100 GPU 上花費了大約 12 小時進行 5 次訓練,不僅提高了事實準確性,而且增強了模型通過復雜想法進行推理的能力,在 GPQA Diamond 上的得分為 0.72。

    結果

    Molecular Universe Chat and Reasoning 模型在以科學為重點的公共基準 (例如 GPQA Diamond ) 和自定義領域特定基準上進行了評估。它在 GPQA Diamond 上獲得了 0.72 分,超越了大多數其他著名、類似規模甚至更大的開源模型,例如 DeepSeek-R1。

    在 MMLU、Winogrande、Hellaswag 和 ARC-E 等公共基準測試中,Molecular Universe Reasoning 模型的性能優于 LLama 3.1 70B。從基礎起始模型中獲得的顯著性能提升凸顯了持續的域預訓練和推理驅動的后訓練在提升模型能力方面的價值,而不僅僅是指令對齊。

    A bar chart titled "Performance comparison between different SOTA reasoning models on the GPQA."
    圖 4。GPQA 上不同 SOTA 推理模型的性能比較
    模型 # 個參數 電池問答 Battery MCQ Battery RC Battery 摘要 電池推理
    GPT-o1 96% 92% 90% 88% 84%
    分子宇宙推理 700 億 96% 89% 90% 86% 82%
    克勞德 3.7 十四行詩 94% 86% 89% 86% 80%
    Gemini 閃存思維 92% 85% 88% 82% 79%
    Molecular Universe 聊天 700 億 93% 79% 84% 79% 73%
    LLaMA 3.1 700 億 71% 67% 78% 75% 66%
    表 2。電池特定任務的性能比較,包括 Q/A、MCQ、閱讀理解、總結和推理

    Molecular Universe Chat 和推理模型在 40,000 個 SFT 測試集和自定義電池特定推理基準測試中得到了進一步評估。將該模型與 GPT-o1、LLaMA 3.1 70B、Claude 3.7 Sonnet 50B 和 Gemini 60B 等模型進行了比較。

    在問答、MCQ、閱讀理解、總結和推理等任務中,Molecular Universe Reasoning LLM 的表現始終優于 GPT-o1 以外的所有基準。盡管 GPT-o1 在生成微調數據方面發揮著重要作用,因此處于領先地位,但 Molecular Universe Reasoning 仍憑借更少的參數和更低的訓練成本取得了有競爭力的結果,進一步凸顯了領域適應和推理對齊的影響。

    結論和未來工作

    分子宇宙推理 (Molecular Universe Reasoning),一個 70B 參數的科學推理 LLM,在其規模類別中展示了科學任務的先進性能。高效計算的訓練策略將域自適應預訓練與基于推理的監督微調相結合,顯著提高了基準模型的性能,并將額外的計算成本降至最低。

    事實證明,結合使用這兩種技術很有價值,其性能優于單獨使用的任何一種方法,并在一般和電池特定基準測試中取得了與更大模型相美的結果。 Molecular Universe Reasoning 模型的部署使用了 NIM 微服務 支持微調模型 ,實現了模型的可擴展實時服務,允許最終用戶同時發送多個并發請求。Molecular Universe LLM 將集成到 SES AI 的材料發現平臺 Molecular Universe (MU-0) 中。該平臺是一個統一的軟件和服務解決方案,旨在幫助電池研究人員和行業專業人員通過一個統一的搜索界面探索候選小分子的龐大數據庫。

    未來的工作將涉及通過特定領域的推理后訓練來完善模型,特別是通過構建以 battery 為中心的專用數據集來增強任務相關推理,并探索使用人類反饋進行強化學習,以進一步提高特定領域的性能。這項工作說明了在不同領域開發經濟高效的中型 (<100B) 領域專家模型的路徑,這些模型具有強大的專門化能力。

    如需詳細了解 NVIDIA DGX 云上的 NeMo 框架,請訪問 NVIDIA 官方文檔和 GitHub。立即開始使用 NVIDIA DGX 云。探索 NVIDIA ALCHEMI 并探索適用于先進機器學習解決方案的 NVIDIA cuML。

    感謝 Zihan Wang (NVIDIA) 和 Kang Xu (SES) 的寶貴支持和見解。

    ?

    0

    標簽

    人人超碰97caoporen国产