AI能夠生成虛擬細胞嗎?
參考消息網2月6日報道 美國《大西洋月刊》網站近日刊登題爲《虛擬細胞是科學的“聖盃”》的文章,內容編譯如下:
研究人類細胞是一件痛苦的事情。人體內有數十萬億個細胞,形成一個龐大而複雜的網絡,這個網絡控制着每一種疾病和代謝過程。
加快細胞研究可以讓人類收穫良多——新的藥物和疫苗、癌症治療方法,甚至只是更深入瞭解影響我們生活的種種基本過程。這方面的研究已經開始進行了。科學家們現在正在設計計算機程序,這些程序可能解鎖模擬人類細胞的能力,讓研究人員能夠預測藥物、突變、病毒或身體中任何其他變化的影響,從而使有形的實驗更有針對性,更有可能成功。美國卡內基梅隆大學計算機科學家、阿聯酋穆罕默德·本·扎耶德人工智能大學校長邢波說,受ChatGPT等大型語言模型的啓發,人們希望生成式人工智能(AI)能夠“解碼生物學語言,然後用生物學語言來表達”。
就像聊天機器人可以從大量書面語言中解析風格、甚至含義,然後據此構建類似人類的散文一樣,理論上也可以用海量生物數據來對人工智能進行訓練,以提取有關細胞、甚至整個生物體的關鍵信息。這將使研究人員可以創建體內衆多細胞的虛擬模型,並根據這些模型做些什麼。美國斯坦福大學細胞生物學家埃瑪·倫德伯格說:“這是生物學的聖盃,人們夢寐以求了很多很多年。”
這些宏大的說法——關於生成式人工智能這種模糊而有爭議的技術——聽起來可能與一衆科技公司高管的預言非常相似:開放人工智能研究中心(OpenAI)的薩姆·奧爾特曼、谷歌旗下“深層思維”公司的德米斯·哈薩比斯和Anthropic公司的達里奧·阿莫代伊都宣稱自己的人工智能產品將很快徹底改變醫學。
不過,如果生成式人工智能真的實現了這些願景,那麼結果可能看起來就像是虛擬細胞這樣的東西,而虛擬細胞是邢波、倫德伯格和其他人一直在爲之努力的。(上個月,他們在《細胞》雙月刊上發表了一篇關於這個主題的觀點文章。邢波則將這個想法更推進了一步,與他人合作撰寫了幾篇論文,探討這種虛擬細胞能否組合成一個“人工智能驅動的數字生物體”——對一整個人的模擬。)即使在非常早期的階段——這種方法如果被證明可行,可能需要10年或100年才能完全實現——這也證明了這項技術的終極好處可能不是來自聊天機器人,而是來自一些更雄心勃勃的東西。
創建虛擬細胞的努力並非始於大語言模型的出現。最早的現代嘗試可以追溯到20世紀90年代,當時是涉及編寫方程式和代碼,以描述每個分子和相互作用。這種方法取得了一些成功,第一個全細胞模型(是一種細菌的全細胞模型)最終於2012年發佈。但這種方法不適用於更復雜的人類細胞——倫德伯格說,科學家們缺乏足夠深入的理解來設想或寫出所有必要的方程式。
問題不在於沒有任何相關信息。在過去的20年裡,新技術已經產生了大量與人類細胞相關的基因序列和顯微鏡數據。問題是,這個語料庫太龐大、太複雜,沒有人能完全理解它。但生成式人工智能或許可以做到,它是在人類指令極少的情況下從海量數據中提取信息的。以色列魏茨曼科學研究所計算生物學家、邢波的合作者埃蘭·塞加爾說,在人工智能應用於生物學方面,“我們正處於轉折點。時機成熟了,我們具備了所有不同的組成部分:數據、計算機、模型”。
卡內基梅隆大學計算生物學家、賽諾菲集團研發和計算科學主管齊夫·巴爾-約瑟夫說:“該領域的重大轉折點出現在2018年。”2018年——在生成式人工智能熱潮之前,谷歌旗下“深層思維”公司發佈了“阿爾法摺疊”程序。這是一種人工智能算法,從功能上“解決”了分子生物學中一個長期存在的問題:如何從組成蛋白質的氨基酸序列中解析蛋白質的三維結構。過去,針對單個蛋白質完成這項任務需要一個人進行多年的實驗。但在2022年,也就是“阿爾法摺疊”首次發佈僅4年後,它就預測了2億種蛋白質的結構,幾乎涵蓋了科學界已知的所有蛋白質。該程序已經在推動藥物發現和基礎生物學研究,這使它的創建者在去年秋季贏得了諾貝爾獎。
該程序的成功啓發了研究人員爲生物學中的其他構成要素——如脫氧核糖核酸(DNA)和核糖核酸(RNA)——設計所謂的基礎模型。受聊天機器人預測句子中下一個單詞的啓發,許多基礎模型經過訓練,可以預測一個生物序列中接下來會出現什麼,例如一個蛋白質中的下一個氨基酸。不過,生成式人工智能的價值不限於直接預測。聊天機器人在分析文本時,會根據單詞之間的關係構建語言的抽象數學結構。它們在這些結構中分配單詞和句子座標,這就是“嵌入”。在一個著名的例子中,嵌入“女王”與嵌入“國王”之間的距離同嵌入“女人”與嵌入“男人”之間的距離相同,這表明該程序生成了一些關於性別角色和王室的內在概念。數學、邏輯推理和說服的基本能力(儘管有缺陷)似乎都來自這種對單詞的預測。
許多人工智能研究人員認爲,這些嵌入所反映的基本理解是聊天機器人能夠有效地預測句子中的單詞的原因。同樣的概念在生物基礎模型中也可能是有用的。例如,爲了準確預測一個核苷酸序列或一個氨基酸序列,算法可能需要生成關於這些核苷酸或氨基酸如何相互作用、甚至它們在一個細胞或生物體中如何發揮作用的內部的統計近似值。
生物學語言要比任何人類的語言複雜得多。一個細胞的所有組成部分和層面都是相互影響的,科學家們希望將不同的基礎模型組合起來,創造出比它們之和更大的東西——就像把發動機、機身、起落架和其他部件組合成一架飛機一樣。陳-扎克伯格倡議公司科學主管、虛擬細胞觀點文章的第一作者斯蒂芬·奎克說:“最終,所有這些都將聚合在一起,形成一個大模型。”
換句話說,這個設想是,爲DNA、RNA、基因表達、蛋白質相互作用、細胞組織等設計的算法,如果以正確的方式組合在一起,可能構成一個虛擬細胞。奎克說:“我們現在還不太清楚如何實現這一目標,但我相信會實現的。”(編譯/馬丹)