谷歌DeepMind開發新模型,能預測哪些DNA突變引起遺傳疾病

9月20日消息,谷歌旗下人工智能團隊DeepMind開發了一款全新的人工智能模型,名爲AlphaMissense。它能夠快速分析錯義突變對人體的影響,加速科學家研究罕見遺傳病。相關成果於本週二在《科學》雜誌上發表。

大約10年前,茲伽·阿夫塞茨(Žiga Avsec)還是一名物理學博士生,通過大學開設的機器學習課程參加了基因組學的速成班。他很快就進入了一個研究罕見病的實驗室,參與研究一種非同尋常的線粒體疾病到底是由哪種基因突變引起的。

如今阿夫塞茨已是谷歌研究科學家,他表示,解決這個問題等於是“大海撈針”。遺傳密碼中潛藏着上千萬種可能的罪魁禍首,這些DNA突變可能會對一個人的生物學產生嚴重影響。其中最令人感興趣的是錯義突變,即因爲單個鹼基替換而導致肽鏈中氨基酸發生改變。氨基酸是蛋白質的組成部分,而蛋白質是身體其他部分的組成部分,所以即使微小的變化也會產生巨大而深遠的影響。

據估計,人類基因組中有7100萬種錯義突變,平均每人攜帶超過9000種。大多數是無害的,但有些與鐮狀細胞性貧血和囊性纖維化等遺傳疾病有關。科學家還猜測,像2型糖尿病這樣更復雜的疾病可能是由一系列錯義突變共同引起的。阿夫塞茨在開始研究時問他的同事:“我們怎麼知道哪些突變是真正危險的?”答案是“在很大程度上,我們無法知道”。

經過多年的艱苦研究,科學家在人類身上發現了400萬種錯義突變,其中只有2%被確定爲致病性或良性。研究單個錯義突變的影響可能需要幾個月的時間。

如今,谷歌人工智能研究團隊DeepMind發佈了一款工具,可以極大加速這一研究過程。機器學習模型AlphaMissense能夠分析錯義突變並預測其致病性,準確率達到90%,優於現有的研究工具。相關論文於本週二在《科學》雜誌上發表。

DeepMind此前開發的突破性模型AlphaFold能夠根據氨基酸組成預測上億種蛋白質的結構。AlphaMissense基於AlphaFold的基礎建立,但兩者的運行方式不同。AlphaMissense不預測蛋白質的結構,它更像一個大語言模型,類似於OpenAI的ChatGPT。

AlphaMissense經過訓練,瞭解了人類及其他靈長類生物的生物學語言,因此清楚蛋白質中氨基酸的正常序列應該是什麼樣的。當人體內蛋白質中的氨基酸排序錯誤時,AlphaMissense就能發現,就像發現句子中不協調的單詞一樣。論文合著者Jun Cheng表示:“這是一種語言模型,但針對蛋白質序列進行了訓練。” “如果我們在英語句子中替換一個單詞,懂英語的人可以立即看出替換是否會改變句子的意思。”

DeepMind研究副總裁普什米特·科利(Pushmeet Kohli)拿一本食譜來打比方。如果AlphaFold關注的是各種食材如何組合在一起,那麼AlphaMissense則是預測如果你使用了錯誤的食材會發生什麼。

AlphaMissense根據分析與其他密切相關突變帶來的影響,爲7100萬種可能的錯義突變分配了0到1之間的“致病性分數”,分值越高,錯義突變致病性的概率就越高。DeepMind研究人員與英國基因組學(Genomics England)合作,將模型的預測結果與已知的錯義突變研究結果進行對比。論文稱,AlphaMissense能夠對89%的錯義突變進行分類,準確率達到90%。

研究人員一直希望找出某種疾病背後的錯義突變,現在可以通過人工智能來實現,並找到模型預測的致病性評分。人們希望,就像AlphaFold能推動藥物研發、癌症治療一樣,AlphaMissense可以幫助多個領域的研究人員加速對基因突變的研究,使他們能夠更快地診斷出疾病並找到新的治療方法。阿夫塞茨說:“我希望這些預測能讓人們更深入地瞭解哪些突變會導致疾病,或者能在基因組學中產生其他應用價值。”

研究人員強調,這些預測不能單獨使用,只能用於輔助現實世界的研究。AlphaMissense可以幫助研究人員快速排除不太可能的錯義突變,加速將基因突變與疾病匹配的緩慢過程。它還有助於科學家更好地理解人類遺傳密碼中容易被忽視的部分,模型的分析結果還包括每個基因的“重要性”指標,研究人員可以用這一指標來衡量某個基因對人類生存的重要性。

歐洲分子生物學實驗室(European Molecular BiologyLaboratory)副主任實驗室歐洲生物信息學研究所(European BioinformaticsInstitute)聯合主任伊萬·伯尼(EwanBirney)表示,對於AlphaMissense並不感到“意外”。研究所過去與DeepMind密切合作,但沒有參與AlphaMissense的研究。他說:“AlphaFold一問世,每個人都知道,利用這個框架來解釋哪些突變會改變蛋白質性狀應該是可能的。”

伯尼認爲,AlphaMissense可以幫助醫生對疑似患有遺傳疾病的兒童進行快速診斷。“我們一直都知道,錯義突變一定是導致某些未確診病例的原因,這是對這些病例進行突變排序的更好方法。”他以RPE65基因爲例,該基因導致失明,只能通過基因療法治療,AlphaMissense可以幫助醫生迅速排除患者DNA中任何其他可能的基因突變,從而確定正確的治療方法。

除了揭示錯義突變的影響,AlphaMissense還展示了人工智能模型在整個生物學領域的潛力。因爲AlphaMissense並非專門訓練用於解決錯義突變的問題,而是研究生物學中發現的各種蛋白質,所以該模型有助於科學家更好地瞭解人類整個基因組及其表達方式。科利表示:“模型的基本架構源自AlphaFold。從某種意義上說,很多東西都是從AlphaFold繼承而來的,我們已經能夠證明它可以推廣到相關但完全不同的任務上。”(辰辰)