評估 GenMol 作為用于分子生成的通用基礎模型

傳統的計算藥物研發幾乎完全依賴于高度特定于任務的計算模型來識別命中率和優化潛在客戶。使這些專業模型適應新任務需要大量的時間、計算能力和專業知識，當研究人員同時跨多個目標或屬性開展工作時，這些挑戰就會增加。

雖然專業模型仍被廣泛使用，但多面手模型的興起點燃了人們的希望，即這些多功能框架可以獲得有用的 化學直覺 ，這意味著它們可以處理各種藥物研發任務，并發現專業模型往往忽視的解決方案和模式。

最近推出的 SAFE-GPT 模型通過引入與藥物化學家的分子設計方法一致的化學直觀框架，代表了 AI 驅動的分子生成的范式轉變。通過使用基于序列連接的片段嵌入 (Sequential Attachment-based Fragment Embedding, SAFE) 表征 (稍后將在本文中介紹)，SAFE-GPT 解決了早期分子生成模型中的關鍵限制，以充分捕獲分子結構的靈活性和模塊化。這使得 SAFE-GPT 在各種藥物研發相關任務中的表現優于基于 SMILES 的生成模型、圖神經網絡和早期的基于片段的模型。

盡管 SAFE-GPT 在當時具有變革性作用，但對于各種藥物研發任務，其效率、可擴展性和適應性存在明顯局限性。

在本文中，我們將 SAFE-GPT 與最近推出的模型 GenMol 進行了比較，介紹了每種模型的優缺點，并討論了其對藥物研發的重要性。

安全概述?

分子表征的選擇對于分子設計中計算模型的準確性、效率和通用性至關重要，并且必須與用戶的化學直覺保持一致才能得到廣泛采用。

SAFE 表征由 SAFE-GPT 和 GenMol 共同使用，通過將分子分解為模塊化、互聯的片段來重塑分子的描述方式。與 SMILES 等將分子編碼為線性字符串的傳統分子符號不同，SAFE 將分子視為片段的無序序列。這種方法保持了化學固有的靈活性和模塊化，同時與現有的 SMILES 解析器保持兼容。

SAFE 特別適用于支架裝飾、連接器設計和基序擴展任務，因為它將這些問題簡化為序列完成任務 (圖 1)。通過保持分子支架的完整性并適應復雜結構，SAFE 實現了基于片段的直觀分子設計，無需復雜的基于圖形的模型。

The diagram lists de novo generation, linker design, motif extension, fragment remasking, superstructure generation and scaffold decoration. — *圖 1. 與分子生成及其安全表示相關的通用基礎模型用例*

SAFE 分子代可用于表示與 SAFE-GPT 和 GenMol 相關的各種任務的分子 (圖 1)，包括：

先導優化 ：使用掩碼標記動態替換分子片段，以迭代方式優化設計。
從頭生成 ：從頭開始創建全新的分子結構，從而發現具有所需屬性的新型化合物。
鏈接器設計：優化連接功能片段的分子鏈接器，增強結構穩定性和活動性。
基序擴展： 擴展關鍵分子基序，以探索其他官能團或增強目標結合相互作用。
上部結構生成 ：為先進的藥物研發和材料設計構建復雜的多片段分子架構。
支架裝飾 ：通過添加不同的替代物來探索結構與活動之間的關系，從而修改核心分子支架。

GenMol 推理代碼示例?

GenMol NIM 微服務及其配套 Notebook 可讓您輸入不同的 SAFE 或 SMILES 以及 mask 字符串，從而簡化推理請求，從 頭生成 僅需純掩膜和所需分子數量即可：

generator = GenMol_Generator(invoke_url='http://127.0.0.1:8000/generate)
# provide a SMILES or a SAFE sequence string
molecules = generator.inference(smiles='[*{15-25}]',num_molecules=20)

圖 2 顯示了示例輸出。

The diagram shows three example molecules with QED values generated by GenMol using a de novo generative workflow. — *圖 2、為純輸入掩碼生成的頂部候選分子*

對于鏈接器設計或基序擴展，您可以通過在片段中附加或插入遮罩來為一組片段提供遮罩：

# append a mask
input_text = 'c14ncnc2[nH]ccc12.C136CN5C1.S5(=O)(=O)CC.C6C#N.[*{15-35}]'
# or insert the mask
input text = 'c14ncnc2[nH]ccc12.C136CN5C1.[*{5-15}].S5(=O)(=O)CC.C6C#N'
# generate molecules
   # provide a SMILES or a SAFE sequence string
molecules = genmol.inference(smiles=input_text,temperature=1.5,
    noise=1.0,num_molecules=1000)

圖 3 顯示了示例輸出。

The diagram shows three example molecules with QED values generated by GenMol using a mask. — *圖 3、為插入一組輸入片段中的掩膜生成的頂部候選分子*

通過引入片段庫和 QED 評分器，您可以迭代地使用 GenMol 推理進行高級引導優化，從而根據輸入掩碼結構實現命中生成和線索優化。

library = Library(max_fragments = 1000)
oracle = Oracle(score = Oracle.RDKitScore('QED'))
optimizer = MolecularOptimizer(library = library, oracle = oracle,
       generator = generator)
 
data = []
def eval():
    best = library.molecules.score[0]
    mean = library.molecules.head(50)['score'].mean()
    std = library.molecules.head(50)['score'].std()
    print("BEST", best, "MEAN", mean, "STD", std)
    data.append([best, mean, std])
 
eval()
 
for i in range(100):
    optimizer.run(iterations = 10, num_mutate = 50)
    eval()

通過以迭代方式優化和更新具有高評分候選項的片段庫 (如此處的 QED 示例，但適用于任何屬性或屬性組合)，您可以快速指導生成過程。

比較用于藥物研發任務的 SAFE-GPT 和 GenMol

GenMol 和 SAFE-GPT 代表了兩種不同的 AI 驅動分子生成方法，每種方法都具有獨特的優勢和局限性 (表 1)。

特征	GenMol	安全 GPT
解碼	并行 (非自回歸)	順序 (自回歸)
任務通用性	寬	需要針對特定任務進行調整
效率	可擴展且高效	計算密集型
多樣性與質量之間的權衡	高平衡	中等

表 1. GenMol 和 SAFE-GPT 的功能比較

SAFE-GPT 基于自回歸 Transformer 架構構建，是一款功能強大的工具，可用于執行支架裝飾和連接器設計等片段受限的任務。它使用順序解碼，可確保在這些特定場景中的準確性和化學有效性。但是，它的順序性質和特定于任務的設計可能需要大量計算，并且無需重新訓練就無法適應新任務。

GenMol 憑借其基于擴散的離散架構和并行解碼，通過提高計算效率和任務通用性來解決許多限制。它擴展了分子生成的范圍，將更廣泛的挑戰包括在內，例如以目標為導向的潛在客戶優化，其性能甚至優于 f-RAG 和 REINVENT 等廣泛使用的模型。它的動態片段重掩蔽策略支持對化學空間進行可靠的探索，使其適用于更復雜的多目標藥物研發工作流程。

除了以目標為導向的潛在客戶優化，每個模型的解碼策略都會影響其在基于片段的任務中的性能，正如我們接下來將看到的那樣。

1. 分子生成與化學空間探索

SAFE-GPT 使用具有順序自回歸解碼功能的 GPT 架構，逐片生成分子片段。SAFE-GPT 與 SAFE 表征的片段順序不敏感特性相結合，可應用于 從頭開始生成 和片段受限生成的分子。

GenMol 基于 BERT 架構構建，采用具有雙向注意力的并行非自回歸解碼，可同時處理分子片段。這使得 GenMol 能夠考慮不依賴于標記和片段任意順序的分子環境，并且在片段受限分子生成任務中 (根據質量分數衡量) 明顯優于 SAFE-GPT (表 2)。

任務	安全 GPT	GenMol
基序擴展	18.6%*- 2.1	27.5%+- 0.8
支架裝飾	10.0+- 1.4	29.6%至 0.8
上層建筑生成	14.3%– 3.7	33.3%*- 1.6

表 2、分子生成任務的質量分數

此外，離散擴散使 GenMol 能夠使用片段重新掩膜策略探索化學空間，該策略可以用掩膜標記動態替換片段，從而增強通過迭代細化發現新型優化分子的能力。這使 GenMol 能夠適用于命中生成和潛在客戶優化任務，而無需進行任何特定任務的微調。

計算效率?

SAFE-GPT 的順序生成以及對強化學習目標的依賴使其成為計算密集型任務，尤其是在大規模或高吞吐量場景中。

GenMol 的離散擴散框架可提高生成效率，采樣速度最高可提升 35%，并降低計算開銷，使其在工業規模的藥物研發中更具可擴展性。

結束語?

這些分子生成模型的重要性不僅限于如何完成分子生成。這也解釋了為什么需要重新設計。

在這個行業中，上市時間對患者來說意味著生命與死亡之間的差異，更廣泛使用的模型可以為研究人員提供通用、高效和精確的工具，以簡化發現過程、優化結果，并擴大化學可能性的視野。它們代表著從勞動密集型流程到 AI 驅動的創新的重大飛躍，而 AI 驅動的創新具有與其試圖解決的挑戰一樣的適應性。

這兩種模型均可根據研究項目的具體需求提供寶貴的工具。對于專注于具有嚴格片段限制的基序擴展和支架生成的項目而言，SAFE-GPT 是一個很好的選擇，而 GenMol 更適合需要更靈活、更統一的框架來處理各種藥物研發應用的研究人員。

立即將 GenMol 作為 NVIDIA NIM 進行測試，或在 GitHub 上探索代碼示例，詳細了解如何使用 GenMol 進行目標導向命中優化、lead optimization 等。深入探索這些方法，確定最適合您研究需求的方法，并加速藥物研發工作。

評估 GenMol 作為用于分子生成的通用基礎模型

安全概述?

GenMol 推理代碼示例?

比較用于藥物研發任務的 SAFE-GPT 和 GenMol

1. 分子生成與化學空間探索

計算效率?

結束語?

相關資源

標簽

關于作者

評估 GenMol 作為用于分子生成的通用基礎模型

安全概述?

GenMol 推理代碼示例?

比較用于藥物研發任務的 SAFE-GPT 和 GenMol

1. 分子生成與化學空間探索

計算效率?

結束語?

相關資源

標簽

關于作者

相關文章

利用 Oracles 和實驗反饋指導生成式分子設計

為醫療保健開發 NLP 應用程序

相關文章

應用具有推理能力的專用大語言模型（LLM）加速電池研究

擴展 NVIDIA Agent Intelligence Toolkit 以支持新的代理式框架

借助 3DGUT 在 gsplat 中革新神經重建和渲染

使用 NVIDIA NeMo Curator 構建 Nemotron-CC：一個高質量萬億令牌數據集，用于大型語言模型預訓練，源自 Common Crawl

概念驅動的 AI 教學助手引導學生獲得更深入的見解