Avantika Lal 博士是 NVIDIA 的一位深入學習和基因組學科學家,以前是斯坦福大學的研究員。她擁有基因組學博士學位,是傳染病和癌癥基因組學方面的專家。在 NVIDIA ,她開發了分析基因組數據的人工智能技術,并應用這些方法來了解人類生物學,開發新的針對疾病的治療方法。
盡管在大流行開始后, COVID-19 的治療有了許多改進,但仍然很難治療。部分原因是我們對病毒如何影響人類細胞的基本生物學認識存在差距。開發有效的治療方法依賴于對這種疾病的基本機制的更好理解。 NVIDIA 的 研究 揭示了這些基本機制的一些關鍵發現,發現了人類細胞中由 SARS-CoV-2 特異性改變的基因、蛋白質和生物過程。

是什么激勵你進入人工智能/數字圖書館的?你是怎么第一次愛上這個領域的?
在我攻讀遺傳學博士學位期間,我意識到遺傳學正在迅速成為大數據分析的科學。越來越清楚的是,生物學的未來在于挖掘大量的基因組數據集,以了解生物組分之間的關系,并能夠在此基礎上做出新的預測。人工智能和深度學習是實現這一目標的最有希望的工具。在那之后的幾年里,隨著這些方法在生物學中越來越普遍,我很高興能成為改變的一部分,并且產生了否則是不可能的見解。
你能談談你目前的研究嗎?
我一直在與來自八個不同機構的研究小組合作,通過挖掘公共數據集來研究人類細胞對 COVID-19 感染的遺傳反應。當細胞被病毒感染時,它會觸發免疫反應,從而改變細胞的活性并向免疫系統發出信號。這種病毒還“劫持”了細胞的許多組成部分以支持其生命周期,從而破壞了細胞的正常功能。
我們分析了 DNA 和 RNA 測序實驗中的公共數據,以破譯和預測感染 SARS-CoV-2 病毒的人肺細胞中哪些基因、蛋白質和生物過程受到影響。我們看到的跡象表明,感染 SARS-CoV-2 的細胞顯示出在感染其他呼吸道病毒時不常見的變化。例如,我們鑒定出 64 個基因,它們的活性在感染 SARS-CoV-2 病毒的多種人類肺細胞中持續變化,但不受其他病毒的影響。

是什么激勵你去應對 COVID-19 的挑戰?
盡管我們已經從大流行的開始學到了很多,但是治療 COVID-19 仍然很困難。部分原因是我們還沒有全面了解病毒是如何影響人類細胞的。了解這種疾病的基本機制將有助于我們開發有效的治療方法。
你在這個項目中面臨的最大的研究挑戰是什么?
在大流行初期,數據可用性是一個挑戰,當時關于 SARS-CoV-2 感染細胞的實驗數據很少公開。新的數據現在已經出來了,很高興看到大多數科學家在期刊出版之前就可以獲得 COVID-19 的數據。
另一個挑戰是,用于預測遺傳相互作用的計算模型還遠遠不夠完善,而且經常產生假陽性結果。理想情況下,這些方法可以用來篩選出可以通過實驗驗證的有趣的候選者。我們很高興看到實驗研究的出現,以幫助我們評估我們的計算預測的準確性。
你用什么技術來克服這些挑戰?
我們的分析之一旨在預測人類 RNA 結合蛋白與 SARS-CoV-2 的 RNA 基因組之間的相互作用。這些蛋白質依賴于 RNA 序列與 RNA 分子結合,并可能影響 SARS-CoV-2 的復制、功能和穩定性。蛋白質與 RNA 序列結合的概率可以被編碼為一種稱為位置權重矩陣的矩陣表示。
我們將病毒的 RNA 基因組序列與這些基質進行卷積,以確定蛋白質可能與 RNA 結合的潛在位點。我們目前正在通過在 GPUs 上使用 TensorFlow 來加速此操作。此外,在過去的幾年里,已經出現了更精確地預測 RNA 與蛋白質相互作用的深度學習方法。通過將深度學習和傳統的 GPUs 預測相結合,我們的目標是建立一個框架來快速準確地預測 SARS-CoV-2 和其他病毒基因組中 RNA 與蛋白質的相互作用。
你的研究對更大的 COVID-19 研究社區有什么影響?
我們的計算分析發現,人類細胞中的基因、蛋白質和生物過程在 SARS-CoV-2 感染中發生了特異性改變。我們希望這種理解可以轉化為更好的治療 COVID-19 。在許多情況下,我們所看到的變化似乎是 SARS-CoV-2 特有的,在其他呼吸道病毒感染中沒有觀察到。這有助于我們了解 COVID-19 的獨特性質。
你的下一步研究進展是什么?你希望這會導致什么?
目前,我們的目標是將我們的一些分析擴展到除 COVID-19 之外的其他病毒感染。這個知識庫將提高對一般病毒感染的科學理解,并通過與其他病毒進行更徹底的比較來進一步加深我們對 COVID-19 的理解。
COVID-19 給全球研究界帶來了哪些獨特的機遇?
我們的研究是一個很好的例子,說明 COVID-19 如何激發研究界的跨國界合作。這項研究由來自 6 個國家 8 個機構的 13 位作者進行。我很高興看到科學界承諾公開分享 COVID-19 的相關數據,而不需要等待發表,以及幾家期刊采取主動,讓所有 COVID-19 相關論文不用付費墻。

圖 2 顯示, SARS-CoV-2 感染的特異因子包括人類 RBPs ,其結合位點在 SARS-CoV-2 基因組中富集和保守,但在相關病毒的基因組中沒有;和基因,對 SARS-CoV-2 感染肺上皮細胞而非其他受試病毒感染時持續改變的異構體和代謝物; ECM (細胞外基質)。
在進一步推進你的研究領域的技術進步方面,你下一步期待什么?
我們已經看到機器學習和深度學習技術在醫學影像診斷 COVID-19 中的廣泛應用。基因組學中的機器學習仍然是一個發展中的領域,很少有研究利用這些能力來分析 COVID-19 基因組數據。隨著越來越多的數據集變得可用,我希望看到更多的 ML 方法應用于從 COVID-19 基因組數據中提取生物學見解。
COVID-19 是如何塑造或重塑你的研究工作流程的?研究界將如何適應“新常態”?’
作為一名計算生物學家,我很幸運能夠相對正常地繼續我的研究。最大的破壞是取消或虛擬化主要會議,研究人員通常會在這些會議上聯系并討論他們正在進行的工作。作為一個社區,我們必須想出更好的方法讓研究人員在虛擬平臺上見面、聯系、協作和尋求建議。
你對下一代研究人員有什么建議?
研究正在變得越來越跨學科 – 廣泛閱讀其他領域的最新發展,并思考如何將其應用于你的領域是很好的。基因組學中的人工智能就是一個很好的例子!
更多閱讀
要了解更多關于阿凡提卡在基因組分析方面的工作,請閱讀她的最新文章 用 RAPIDS 加速單細胞基因組分析 。