張亞勤:未來10年AI+生物製藥大有可爲,我們正開展破壁計劃

都說“21世紀是生物的世紀”。

那麼,去年穀歌DeepMind推出的AlphaFold 2,無疑將當下的AI技術與尚在探索的生物技術完美結合起來。

其實不僅在國外,國內一批頂尖人才和有識之士也在探索這兩項技術的融合

曾經活躍在產業界,如今迴歸學界張亞勤院士,就在努力促成AI推動生命科學的發展。

去年,張亞勤從百度離開加入清華大學,成立清華智能產業研究院AIR。如今,短短一年,已有多名世界頂級科學家加盟AIR。

在MEET2022智能未來大會上,張亞勤透露清華智能產業研究院在進行的重要科研項目之一,就是利用AI技術開發抗體、研究DNA序列、預測蛋白質結構等等。

張亞勤認爲,AI在新冠疫苗的研發過程中發揮了重要作用,堪稱AI在生命科學實際應用中的重大事件:

爲了完整體現張亞勤院士對AI技術與生命科學關係的思考,量子位在不改變原意的基礎上,對他的演講內容進行了編輯整理。

演講要點

(以下爲張亞勤演講全文)

清華智能產業研究院的使命

我特別喜歡今天這個主題:因爲看見,所以相信。這個世界屬於對未來有期待,有理想甚至幻想的人們。預測未來最好的方式,就是去創造未來。

人工智能經過60多年的發展,正是因爲最初從事人工智能科研的科學家對這個行業有信心、有洞察力,才迎來今天的爆發,使得人工智能成爲通用的技術,成爲無所不在的賦能技術,就像空氣AIR。

今天我主要講人工智能賦能生命科學。

我簡單介紹一下清華大學智能產業研究院(AIR),這是去年我離開百度之後創立的研究院。這裡的I有三重含義,AI、International國際化、及Industry產業。AIR的使命是人工智能技術賦能產業升級,推動社會進步。

人工智能是第四次工業革命的決定性技術,我們希望打造面向第四次工業革命的國際化、智能化和產業化的研究機構。

AIR的戰略目標有三個:

就在明天,清華大學智能產業研究院(AIR)將迎來一歲生日。

這一年來,AIR非常幸運的邀請到多位世界頂級科學家,並且這些教授學者們都有雙重經歷:一方面有很深的學術造詣,另一方面又有豐富的產業背景。

我們選擇了三個方向作爲突破點:第一個是智慧交通,第二智慧物聯IoT,第三智慧醫療。重要的還是ABCD(AI、大數據、雲計算、設備)四個橫向的技術領域作爲基石。

今天我重點講一下AI+生命科學方面的一些進展。整個信息產業,過去三十年最大的突破就是數字化。

AI帶來生物數字化

首先是內容數字化,後來到企業數字化,現在進入物理世界的數字化和生物世界的數字化,我們的身體、大腦、器官、細胞、蛋白質和基因等都在數字化。另一方面人工智能、算法和算力系統快速進展使得大量的數據有使用的場景。

同時人工智能也推動生物實驗的自動化。

正如剛纔量子位創始人李根先生所說,目前人工智能算法取得很多進展,我們有巨量的模型,在國內比如鵬城的盤古、智源的悟道、浪潮的源1.0,國際有GPT-3、微軟和AMD聯合推出的Megatron-Turing,包括馬上將會出現的GBT-4,整個量越來越大。

同時,AI也在極大加速生命健康和生物醫藥領域的快速發展。

以新藥研發爲例,目前要開發一種新藥需要投入超過十幾年的週期,花費數十億美元,週期很長、費用極高。這樣巨大的投入顯然會對醫藥行業帶來巨大瓶頸,AI正在改變這種狀況。

首先在基因編輯方面,AI+CRISPR可以更精準,更快的找到靶點。

另外,在大分子、抗體,以及TCR個性化疫苗和藥物,還有最近AlphaFold在蛋白質三維結構解析方面的新進展,從序列到結構到功能,AI技術功不可沒。

我們最近在研究的課題之一,就是怎樣使高通量的生物實驗自動化,把幹實驗和溼實驗無縫連接起來,形成閉環,真正地加速整個製藥和生命科學的發展。

在這點上一個非常形象的例子就是新冠疫苗的開發週期大幅度縮減。中國科學家在新冠病毒出現之後的第一時間,2020年1月份就找到了病毒基因的序列,三個月之後,蛋白質的結構就被解析出來了,此後一個月,病毒和人的交互的方式也解析出來了,去年底疫苗進入臨牀實驗,今年開始大規模使用,不管是滅活疫苗,還是mRNA疫苗,這可能是人類歷史上最快的一次用人工智能加速疫苗開發的例子。

另外,AIR彭健教授將遷移學習模型用做藥物臨牀前的評估,和精準臨牀實驗的設計。我們知道人類很多疾病樣本數據很少,但卻積累了很多動物數據,用動物數據模型加上目前已有的人類腫瘤細胞繫上的藥物數據,運用可解釋型的機器學習能很快遷移到人體內的藥效預測任務上。從結果可以看到,彭健教授這種遷移學習方式對於三陰型乳腺癌患者設計的藥物醫藥可信度提高5倍左右。

另外,彭健教授團隊還把幾何深度學習用到AI抗體的開發。目前雖然蛋白質序列大幅度被解析出來了,但是其本身的形狀幾何結構還有很多的變化,他們想做的就是把蛋白質表面的幾何表徵用深度學習方法去表示出來,然後做抗體親和力預測。

彭健教授最近也取得了一些新的進展,他創建的Helixon公司與清華大學醫學院一起合作研發出全球首個AI設計的新冠抗體,這其實是一種新範式。病毒本身是一直在變化的,但通過綜合分析抗體與抗原的相互作用,有效設計抗體可變區氨基酸序列,這樣的抗體本身也是相對比較穩定,且對德爾塔、阿爾法、伽瑪等突變株具有高效和廣譜的病毒中和效果。

另外,AIR蘭豔豔教授也帶領的學生在基因測序方面做了很多新的工作,並在今年的創新工場Deecamp競賽中獲得了冠軍。我們已知基因10%是編碼的,90%是未編碼的,他們利用基因裡的未編碼部分,將這些數據用前沿的預訓練技術構造了一個全新的模態。

人工智能和生命科學領域儘管有很多可以合作的地方,但是也有很多壁壘,兩個行業是兩類不同的語言體系,兩類不同的科學家,如何把這兩個行業無縫連接起來很關鍵。AIR提出的AI+生命科學破壁計劃就是希望能跨越兩個學科的鴻溝。同一張圖AI科學家看到的是各種不同的神經網絡、算法模型;生命科學家看到則是蛋白質、細胞,以及各種生物結構功能。所以怎樣抽象出哪些問題,以及如何利用這些數據,是一個亟待解決的問題。

AI賦能生命健康領域包括三個層次:AI基礎設施建設、數據平臺搭建,以及AI算法引擎設計。

最好的人工智能賦能生命科學的例子就是蛋白質預測模型AlphaFold2。AlphaFold2能夠成功滿足幾個條件:

第一位把深度學習用於蛋白質三維結構預測的是芝加哥大學豐田研究院許錦波教授,他現在也是清華大學智能產業研究院(AIR)的卓越訪問教授。當時在CASP,他把ResNet用到蛋白質三維結構解析,獲得巨大成功。

現在AlphaFold用的是evolutioned Transformer,以後新的算法都可以用上,所以我覺得這是一個非常經典的案例。

我們希望在這個後AlphaFold時代,特別是在大分子製藥方面會有更多進展。

打造AI生命科學乾溼閉環實驗的新的範式。現在AI算法還是輔助,主要還是靠生物的溼實驗。未來會有一種新的模式是AI驅動的,完全自動化所有環節的溼實驗,裡面沒有任何人的參與,這個是比較困難的,也是一種新的嘗試。

最後做一個總結,現在整個生物世界在走向數字化、自動化,也包括智能科學計算,像分子動力學,薛定諤方程等,都會和AI相輔相成。另外計算的方式,包括AI、數字驅動、第一性原理等,也將快速地幫助我們解決生命健康的一些問題。

由於這些進展,我們整個生命科學的生物製藥會更加快速精準、更安全、更經濟、更加普惠。但很多的挑戰我們沒有講,比如算法的透明性、可解釋性、隱私安全、倫理等,這些事情都需要我們關注。我相信未來十年是整個生物製藥和人工智能融合的大好時機,也是行業發展的最大的機遇,謝謝大家。