斯坦福大學的 Das Lab 正在通過一種利用社區參與和加速計算的獨特方法,徹底改變 RNA 折疊研究。在 NVIDIA DGX 云 通過 NAIRR Pilot 計劃 提供的支持下,該實驗室在三個月內獲得了 32 個 NVIDIA A100 DGX 云節點 (每個節點配備 8 個 GPU) 的訪問權限,使團隊能夠從小規模實驗過渡到大規模分布式訓練。這使得該團隊能夠使用大型模型和數據集進行訓練,迭代訓練技術,并推動 RNA 折疊研究領域的發展。
Rhiju Das 博士及其團隊處于 RNA 研究的前沿,為應對新冠肺炎 (Covid-19) 大流行,于 2020 年舉辦了 OpenVaccine Kaggle 競賽,并于 2024 年舉辦了 Ribonanza 競賽,以進一步研究 RNA 折疊。他們的目標是通過對 RNA 結構和功能進行準確建模,加速對生物科學的理解和應用。
開發 RNA 折疊模型的主要挑戰之一是缺乏實驗性 RNA 結構數據,例如用于訓練 AlphaFold2 的蛋白質結構數據庫。
為了解決這個問題,Das Lab 開發了 Eterna ,這是一款讓社區能夠為生成新的 RNA 序列做出貢獻的游戲。然后,在實驗室中合成這些序列,并使用化學映射實驗來推理折疊的 RNA 結構。
策略
Das Lab 加速 RNA 折疊研究的方法涉及幾個重要步驟:
- 眾包數據管護 :該實驗室創建了 Eterna 視頻游戲,用于從社區收集新的 RNA 序列,并結合其他專家管護的數據庫。
- 近似 RNA 結構數據: 化學映射實驗根據 Eterna 和其他眾包方法中開發的序列,生成在實驗室中合成和測試的 RNA 的反應性圖譜。
- 眾包模型設計: 在社區的幫助下,Kaggle 競賽用于測試各種模型架構和訓練流程。
除了眾包數據管護之外,Das Lab 還使用多種方法來獲取合成設計。其中一種方法是使用經過強化學習訓練的模型,以人類級別的性能運行 Eterna 游戲,從而加速新序列生成。該模型使用 Q-learning 算法在 NVIDIA DGX 云上使用 4K GPU 小時進行訓練。
Das Lab 基于去年 Ribonanza 競賽的最佳模型,創建了一個新模型 RibonanzaNet,其性能優于之前的所有解決方案。最近,他們將其訓練數據庫從 21 萬個 RNA 序列擴展到了 4 千萬個 RNA 序列和化學反應性圖譜。借助 NVIDIA DGX 云的計算能力,他們開始執行大規模分布式訓練、各種模型架構實驗,并優化訓練超參數。
結果
“Das Lab 成功策劃了用于訓練 RNA 結構的大型數據庫。他們使用此數據庫在 256 個 A100 GPU 上訓練基礎模型,建立在 RibonanzaNet 上。他們的最新模型 RibonanzaNet2 是一個 100M 參數的 RNA 結構基礎模型,在二級結構建模中實現了先進的性能。社區可以對其進行微調。”
2025 年 2 月 26 日,Das Lab 發起了 Kaggle 競賽,名為 Stanford RNA 3D Folding ,獎金總計 $75K,在前三名團隊中進行分配。本次競賽為期 3 個月,要求社區微調 RibonanzaNet2 以進行下游結構預測。評估包括競賽開始后收集的實驗性 RNA 結構。
“要開始在 Kaggle 比賽中微調 RibonanzaNet2,請參閱 RibonanzaNet2 alpha 版本論壇文章和 RibonanzaNet2 模型版本。如需了解更多信息,請參閱發布 RibonanzaNet2 on X 的六篇文章。距離參加本次競賽并幫助解決生物學領域余下的重大挑戰還剩不到 2 個月的時間。”
這項研究的重要性在于它有可能加速對生物科學的理解和應用。RNA 折疊研究對醫學、農業和生物技術等領域具有重要意義。例如,通過開發更準確的 RNA 結構和功能模型,研究人員能夠更好地了解各種疾病的潛在機制,并開發出更有效的治療方法。
參與
Das Lab 的成就展示了加速計算在推動 RNA 折疊和生物學等科學領域發展方面的眾包和協作研究潛力。未來,該團隊計劃擴展模型和數據集大小,并通過 NVIDIA DGX 云等方式訓練計算資源。
要參與這項有趣的活動并為推進 RNA 的 AI 基礎模型做出貢獻,請參加 Stanford RNA 3D Folding Kaggle 競賽,并開始微調 RibonanzaNet2 。
有關 Das Lab 研究的更多信息,請參閱以下資源: