在傳統的臨床醫學實踐中,治療決策通常基于一般準則、以往經驗和試錯方法。如今,隨著電子病歷 (EMRs) 和基因組數據的訪問, 精準醫療 的新時代正在興起,即以前所未有的準確性為單個患者量身定制治療方法。精準醫療是一種創新的醫療保健方法,通過考慮基因組中的個體可變性來定制疾病預防和治療。
本文將探討 Atgenomix SeqsLab 平臺如何使用 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 來集成健康組學見解或大規模生物數據。這種集成使精準醫療的應用范圍更廣,超越理論,走向實用、廣泛的臨床應用。
健康組學數據的計算挑戰
EMR 與基因組測序和其他健康組學數據的集成具有極高的計算要求。單個全基因組測序 (WGS) 數據集的每個患者容量可超過 300 GB,并且與蛋白質組學、代謝組學和轉錄組學數據相結合后,總數據集可以快速達到 petabyte 級。每年為數千名患者生成測序數據的醫療機構面臨巨大挑戰,包括:
- 海量數據 :大規模處理基因組數據需要高吞吐量計算資源。
- 計算復雜性 :分析涉及復雜的算法和流程,需要強大的處理能力。
- 時間敏感性 :臨床醫生需要在幾小時或幾分鐘內 (而不是幾天) 得出結果,才能及時做出治療決策。
- 安全性和合規性:必須安全處理健康數據,以遵守 HIPAA、GDPR 和其他法規。
為應對這些挑戰,高性能計算 (HPC) 和 GPU 加速的大數據框架正在改變基因組學數據的大規模處理和分析方式。
使用 Atgenomix SeqsLab 生成健康組學見解
Atgenomix SeqsLab 是一個先進的 Spark 原生平臺,旨在應對健康組學數據分析的挑戰。它提供了一個經過優化的結構化框架,用于構建和執行可以利用先進計算工具和技術的復雜生物信息學流程。
例如,該平臺集成了 NVIDIA Parabricks 和 RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) ,以加速大規模基因組學、轉錄組學和 EMR 數據的處理和分析。健康組學會生成龐大而復雜的數據集,需要復雜的分析來提取有意義的見解。SeqsLab 提供了一個數據湖,使臨床醫生能夠輕松找到感興趣的基因組信息,并將其與 EMR 中的治療和結果以及指南和數據庫中的臨床解釋放在相同的視圖中。這使醫生能夠利用最全面的信息做出臨床醫生決策。
圖 1 中的控制面板顯示了遠東紀念醫院如何利用 SeqsLab 根據患者基因組數據提供藥物和疾病風險評估以及個性化醫療建議。

借助 NVIDIA Parabricks 加速基因組分析
Atgenomix SeqsLab 利用 Parabricks 的強大功能加速基因組分析,這是健康組學工作流程中的關鍵步驟。快速生成高質量的基因組數據對于下游分析和臨床應用至關重要。為了滿足這一需求,SeqsLab 集成了 Parabricks,這是一套高性能基因組分析工具,旨在以超高的速度和準確性處理大量測序數據。
“Parabricks 和 Spark 通過將對齊和變異檢測步驟分解為多個子任務以進行并行處理,顯著縮短了關鍵基因組分析任務所需的時間。例如,使用包含 Parabricks 和 Spark 的 SeqsLab,使用 80 Azure NC8as_T4_v3 (包括 NVIDIA T4 GPU 和 AMD EPYC 7V12 (Rome) CPU) ,使用 DeepVariant 進行 30 倍全基因組測序的變異識別只需 10 分鐘。工作流經過優化,可使用 323 個分區。在 64 個核心的 CPU 上運行此分析大約需要 4 小時。
這種顯著的加速使研究人員和臨床醫生能夠以前所未有的速度從全基因組測序數據中獲得關鍵見解。此外,從 2,500 個樣本中提取全基因組的聯合基因分型可以在短短 40 小時內完成,這一過程傳統上大約需要一個月的時間。這意味著速度提高了 16 倍,展示了 Parabricks 高效處理大規模基因組數據集的能力。
通過將 Parabricks 集成到 SeqsLab 中,用戶可以克服傳統基于 CPU 的方法的局限性,這些方法通常難以跟上不斷增加的基因組數據量。這不僅節省了寶貴的時間,還加快了研究發現速度、加快了臨床決策速度,并改善了患者的治療效果。
SeqsLab 還可以連接到其他數據庫,例如 dbSNP、Clinvar 和 GeneCards,以便為醫生和研究人員提供更多定制信息。這些信息為臨床研究人員提供了一個全面的平臺,以便在儀表板上捕獲變異致病性、可操作的藥物反應信息和風險因素。

借助 Spark-RAPIDS 實現可擴展的數據處理
Parabricks 可加速原始測序分析,而下游健康組學分析則需要高性能大數據分析。示例包括基因表達分析、患者分層和基于機器學習 (ML) 的診斷。Atgenomix SeqsLab 基于 Spark 分布式框架設計,利用 Spark-RAPIDS 加速大規模健康組學數據的處理和分析。Spark-RAPIDS 為廣泛采用的分布式計算系統 Apache Spark 帶來了強大的 GPU 加速功能。這種集成對于處理健康組學中常見的大型數據集和計算密集型任務至關重要。
Spark-RAPIDS 的主要優勢包括:
- 更快地執行 SQL 查詢和數據轉換
- 為提取、轉換、加載 (ETL) 和 ML 任務提供無縫 GPU 加速
- 可擴展以處理 petabyte-scale 健康組學數據集
訓練 XGBoost 模型對 10000 個樣本和 19000 個基因中的 33 種癌癥類型進行分類,這凸顯了 ML 任務的加速。在 24 個 CPU 核心上,此分析需要 120 多分鐘。但是,SeqsLab 利用 Spark-RAPIDS,使用相同的 CPU 和單個 NVIDIA A100 GPU,只需 10 分鐘即可完成訓練。這展示了 Spark-RAPIDS 能夠利用 GPU 加速大幅加速 ML,這是疾病預測和個性化醫療等任務的關鍵組成部分。

在遠東紀念醫院,與 SeqsLab 建立了精準醫療智能可持續平臺,以分析和可視化與疾病狀態相關的基因組數據。SQL 查詢的加速對于交互式數據探索和臨床決策支持尤為重要。
對于包含 13K 個獨立樣本(每個樣本約有 700K 個變體和總計 9B 個變體)的患者 SNP Array 數據湖倉庫,Spark-RAPIDS 可顯著加速用于填充臨床醫生控制面板的 SQL 查詢。在 8 個 NVIDIA T4 GPU 上運行 Spark-RAPIDS 時,完成這些 SQL 查詢的平均時間從 64 個 CPU 核心上的 140 秒縮短到 12 秒,在一個 NVIDIA H100 GPU 上運行 Spark-RAPIDS 時甚至進一步縮短到 10 秒。通過每月 1K 次此類查詢,SeqsLab 可讓臨床醫生獲得即時的健康組學見解,并為醫生節省數十個小時的時間,使其無需等待數據分析完成。
腎病醫師兼 FEMH 醫學研究主任兼核心實驗室主任 Dr. Yen-Ling Chiu 表示:“由 Atgenomix SeqsLab 提供支持的 FEMH Health Omics 可以揭示標準基因分析經常忽略的潛在遺傳特征和風險變異。這為智能醫療奠定了基礎,加強了疾病風險管理,并推動了精準健康推廣的未來。”
通過集成 Spark-RAPIDS,SeqsLab 使用戶能夠對大型數據集執行復雜分析,同時顯著縮短處理時間。這有助于提高效率,加快研究和臨床應用的周轉時間,并能夠解決健康組學中以前難以解決的問題。
潛在用例?
神經退行性疾病的精準醫療不僅能實現早期診斷,還能積極重塑衰老軌跡,為患者提供更多年的認知健康。
細微的記憶缺失 (例如錯放物品或忘記預約) 通常可歸因于正常老化。然而,當出現這些癥狀時,包括基因組篩選在內的全面評估可以提供更深入的見解。例如,基因分析可以識別與阿爾茨海默病相關的高風險 APOE-ε4 變異體。雖然沒有治愈方法,但早期干預可以產生重大影響。
憑借這些知識,臨床醫生可以制定個性化管理計劃,其中包括認知健康計劃、量身定制的生活方式修改、優化的藥物策略以及臨床試驗訪問權限。多年后,盡管其他具有類似遺傳風險的人的認知能力顯著下降,但接受早期干預的人仍保持獨立和生活質量。
使用 SeqsLab 實施精準醫療工作流程
Atgenomix SeqsLab 是一個生物信息學工作流引擎,集成了 Parabricks 和 Spark-RAPIDS,可簡化精準醫療數據處理。SeqsLab 提供端到端工作流程自動化,從原始測序數據中提取數據并進行處理,以生成臨床相關見解。該平臺提供了在安全的分布式計算環境中處理大規模基因組學和 EMR 數據所需的可擴展性和效率。
此外,SeqsLab 還提供合規就緒型解決方案,確保遵守健康數據隱私的監管要求。通過利用 SeqsLab,醫院、科研機構和制藥公司可以快速分析和解釋基因組數據,加速精準醫療的發展。
Atgenomix SeqsLab 等平臺的應用為健康組學帶來了變革潛力,并有望帶來一系列顯著優勢:
- 加速診斷 :更快的分析可以更快、更準確地診斷,從而做出及時的治療決策。
- 改善預后 :增強的計算力可實現更復雜的分析,從而更好地預測疾病進展和治療反應。
- 個性化醫療:支持根據個人獨特的分子特征開發和實施個性化治療。
- 藥物研發 :加速藥物點的識別和新療法的開發。
- 增強的研究能力 :使研究人員能夠處理更復雜的問題和更大的數據集,從而在了解人類健康和疾病方面取得突破。
借助 SeqsLab,可以通過多組學數據背后的豐富信息來增強健康信息,包括檢測結果、過去的治療方法和臨床結果,從而生成前所未有的見解。這種速度和可擴展性使行業離精準醫療的最終目標更近了一步。
要開始使用,請查看以下資源:
- NVIDIA 基因組學分析藍圖
- NVIDIA NIM 微服務 fq2bam 和 DeepVariant
- 適用于 Apache Spark PB 的 RAPIDS 加速器
- NVIDIA/spark-rapids GitHub 資源庫
與 NVIDIA 創始人兼首席執行官 Jensen Huang 一起在 COMPUTEX 2025 主題演講 中了解更多信息,并在 COMPUTEX 2025 上 參加 GTC 臺北分會 ,直至 5 月 23 日。
?
?