AI 蛋白質奪諾獎,清華聶再清:大模型解碼生物語言 | 智者訪談
人工智能的卓越發展
源於對技術與產業本質的洞察
機器之心視頻欄目「智者訪談」
邀請領域專家,洞悉 AI 核心趨勢
深化行業認知,激發創新思考
與智者同行,共創 AI 未來
2024 年諾貝爾化學獎頒發給了在計算蛋白質設計和蛋白質結構預測領域做出突出貢獻的三位科學家,凸顯了人工智能和計算方法在解析生物語言中的關鍵作用,也預示着 AI 技術在生物醫藥領域更爲廣闊的應用前景。
然而,藥物研發作爲一個漫長而艱難的過程,10 年、10 億美元、10% 成功率的「魔咒」仍然困擾着整個行業。儘管人工智能已經在多個環節展現出巨大潛力,業內專家普遍認爲,距離 AI 藥物研發發展成熟甚至帶來顛覆性改變還需要很長一段時間。大模型的出現,爲加速這一進程提供了新的契機。
本期機器之心《智者訪談》邀請到清華大學聶再清教授,探討他在將先進的自然語言處理技術應用於生物醫藥數據分析的創新實踐。聶教授及其團隊正致力於構建生物醫藥領域的基座大模型,通過對不同尺度和不同模態的數據進行建模及整合,建立起生物語言與自然語言之間的橋樑。
團隊的目標不僅僅是實現自然語言與生物語言之間的翻譯,而是打造一個能夠調用各種工具的智能助手。這個助手有望成爲生物醫藥行業應用的重要入口,整合領域內的各種數據、知識和工具,並且使用自然語言與人類專家交互,通過人機協作提升藥物研發的效率與成功率。在當前的技術背景下,相較於單純研發更好的 AI 藥物模型,這種模式具有更高的商業可行性。
基於大模型的對話式藥物研發助手 ChatDD 界面,用戶通過自然語言進行智能搜索、工具調用和指令輸入,包括對生物語言(如蛋白質結構)進行優化。例如,專家可以輸入自然語言要求「優化這個分子以減少毒性」,模型隨後會提供相應的建議和方案。來源:水木分子
如果說數學是描述物理學的完美語言,那麼人工智能則被認爲是破譯生物學複雜機理的關鍵。在訪談中,聶教授將分享其團隊在自然語言與生物數據融合方面的前沿研究成果,探討基於多模態大模型的對話式智能助手在藥物研發中的實際應用與商業潛力,爲我們揭示人工智能賦能藥物研發的全新可能。
視頻鏈接:https://www.bilibili.com/video/BV16DmPY3ESB/
時間戳
01:15
藥物研發痛點:乾溼實驗不結合
02:28
做基於大模型的對話式藥物研發助手
06:30
構建生物醫藥領域的基座大模型
10:03
多尺度建模與融合:統一到原子
17:45
藥物研發助手 ChatDD
21:16
商業模式:最終目標是成爲行業入口
25:38
哪些行業適合研發垂直大模型?
28:37
藥物研發的未來
訪談文字整理
機器之心:聶再清教授好,非常高興您做客機器之心的《智者訪談》。我們知道您在自然語言處理和語音識別等方面有着深入的研究和實踐,目前在清華大學智能產業研究院(AIR),主要從事生物醫藥相關的研究工作,並且在 AlR 孵化的公司水木分子擔任首席科學家,很高興能與您就 AI 賦能藥物研發進行探討。
您之前講過在藥物研發領域,一個核心的矛盾就是乾溼實驗無法結合,比如說幹實驗預測出來的結果在溼實驗上面可能並不成功。
聶再清:因爲幹實驗一個最大的問題是,其結果是基於某一個數據集的,而那個數據集跟現實生活中的真實場景並不一定完全一致,所以基於這個數據集訓練出的模型,用在真實場景時,有可能效果就差別很大,很難說一個精度 80%、90% 的模型在溼實驗的結果裡能具體代表什麼。當然,我們可以去建一個非常通用的數據集,用以去提升模型的通用性,但現在的問題是數據集的制定和現實製藥場景的制定,可能還沒有那麼好的一致性。在具體任務上,最終效果還是得通過溼實驗檢驗,模型效果到底怎麼樣,是否可用,溼實驗的效果是非常重要的。
01、做基於大模型的對話式藥物研發助手
機器之心:您在水木分子帶領團隊研發基於大模型的對話式藥物研發助手,這是一個非常新穎而獨特的賽道,因爲說到藥物研發,我們首先想到是預測結構、生成新的分子、設計全新的抗體等等,您爲什麼會選擇解決這樣一個問題?
聶再清:我一直從事自然語言理解這部分的工作,我發現 ChatGPT 或者大模型確實是一個很大的技術進步,也讓大家看到很大的機會,有可能在通用 AI 能力上取得較大進展。選擇在這個時期加入大模型相關的工作,因爲我看到未來大模型在每個行業裡面都會產生非常重要的作用。
那爲什麼選生物醫藥?首先生物醫藥這個領域,有很多可以拿來做自監督學習的數據,比如我們已經積累了超過 20 億的蛋白質氨基酸序列數據。我認爲這個領域現在應該可能處於自然語言的 GPT-2 時期,模型的能力尚不能夠在生物數據這個模態上涌現智能,也就是說不是每一款幹實驗模型預測的藥物,都能超過專家。
在這種情況下,我們希望能夠把專家的經驗和直覺與大模型目前對生物這一部分的理解能力融合在一起,所以就提出了一個對話式助手的想法,一方面把專家的經驗跟直覺用對話的形式告訴大模型,去幫助大模型,另一方面又把大模型設計的結果用自然語言解釋給專家聽。這樣讓人和大模型有效融合,去彌補現在生物模態本身還沒有完全實現涌現智能的不足。
如果我只做生物模態,就像很多公司那樣,一個最大的問題是我們推薦的分子或者說抗體,可能並不能夠在溼實驗上一做就有效果,臨牀完就通過了,因爲它現在還沒那麼有效。很多時候,在幹實驗上做得很好的結果,比如我拿排名第一的或排名前十的結果去做溼實驗,可能沒有一個成功。
至於專家,儘管專家有製藥的經驗與直覺,但他沒有辦法跟模型有效溝通,模型並沒有向專家解釋到底爲什麼預測出這樣的結果。
機器之心:因爲設計模型的人並不是藥物研發專家。
聶再清:對,藥物研發專家也沒有時間天天去寫模型,那專家能做的是什麼呢?在小模型時代,專家可能做的就是去構建一個訓練數據集,用於訓練模型,但這件事也要花很多時間,而且做了之後到底能不能大幅提升這個小模型的性能,也是一個問題,如果沒有提升,專家的信心就受挫了,就不去寫訓練數據了。
從怎麼有效地把專家跟人工智能算法結合起來的角度,我覺得需要兩個模型的融合,這是在交互的層面,在知識融合這個層面,其實也需要兩個模態模型的融合,我們現在已經有大量用自然語言寫下來的知識,比如發現了一個靶點,也就是發現了一個蛋白質和疾病的關聯,那麼這一部分知識如何與生物模態的知識融合在一起,也是一個亟待打通的問題。所以基於這樣的考慮,我們決定做基於大模型的對話式藥物研發助手。
02、構建生物醫藥領域的基座大模型
機器之心:水木分子團隊研發了一個叫做 ChatDD-FM 的大模型,您能給我們介紹一下這個模型嗎?
聶再清:我們希望 ChatDD-FM 成爲這個行業的基座模型。要成爲基座模型,它首先就得能夠表示這個行業裡面用到的所有數據,當然也能夠去完成這個行業裡的任務,同時還要能夠與生物醫藥行業裡面的專家去進行對話,能夠調用這個行業裡面所有的工具去解決專家們的問題。
所以在這裡面天然就存在兩類模態數據的表示,一類是文本模態,還有一類是生物模態。那文本模態除了自然語言,還有結構化的知識(比如知識庫)和非結構化的表示。生物模態裡面則有蛋白質分子、氨基酸序列、單細胞、活性小分子,等等。這裡面的每一種生物數據,我們都會去打造一個編碼器,比如我們會有一個蛋白質的編碼器,也可以叫做蛋白質語言大模型,也有小分子的大模型,單細胞的大模型……對於這每一個大模型,我們也希望專家能夠用自然語言去理解、去溝通,因爲專家看到一個蛋白質,或者看到一個小分子,對於這個結構本身,對於它的生物學功能,比如這個小分子基團放在這裡可能會帶來什麼樣的功能等等,這樣一些生物模態語義的信息,其實專家是希望能夠去與系統交互的。
所以我們構建了一個多模態的生物醫藥大模型,能夠在自然語言和生物語言之間進行翻譯,專家可以用自然語言去提問,他甚至可以用自然語言去說,「幫我再優化一下這個分子,減少一下毒性」,然後模型反饋一些不同的建議。
機器之心:比如說我可以直接輸入一句話,「給我設計一個感冒藥」,然後它就輸出一個感冒藥?
聶再清:對,理論上是可以的,但從實踐角度講,基於現在這個大模型的能力,這樣做可能不是最優的,現在最優的方法可能是給它一個小分子或者一個骨架,專家用自然語言說「如果更換這個骨架,或者提升某一個性能,需要做什麼,給我一些建議」。甚至最好也不是從頭生成一個分子,因爲從頭生成分子涉及到很多複雜的過程和反應,我們需要了解其中的具體細節,比如這個分子它是怎麼合成的等等。因此,可能最好還是通過虛擬篩選的方法,或者說在生成一個分子的時候,然後找到一個跟這個分子相似的的可合成的藥物,在此基礎上再接着優化。當然,在實踐中這個過程可能會有所不同,但一定是可以用自然語言去跟大模型溝通的,讓大模型可以朝語義方向去優化。
03、多尺度建模及融合:統一到原子
機器之心:在生物模態裡既有細胞,又有蛋白質、組織等等,如何在一個模型裡面把這些不同尺度、不同模態的數據都統一到一起,並且去表達它們之間的這些複雜關係呢?
聶再清:這個是一個很好的問題。人體有很多組織,每個組織都有不同的功能,在肝臟就是排毒的,在眼球就是看東西的,因此存在很強的語義(Semantic meaning)。同時,眼球本身又具有空間結構,它裡面有很多細胞,細胞之間要產生相互作用,在每個細胞裡面又有蛋白質,蛋白質和藥物如果要相互作用,可能要與小分子結合,那麼化學小分子裡的原子去產生作用,與蛋白裡的氨基酸結合本身就是一個不同的尺度。
我們的自然語言也是一樣,我們可能有圖書館,可能是分類別的圖書館,有不同功能的圖書館,圖書館裡面又有一本本的書,書裡面又有章節(Section),裡面又有段落(Paragraph),最後到詞,對吧?所以我們覺得人體、生物語言,可能跟自然語言類似,這裡面也可以找到一個最基本的 Token,那就是原子。所以,我們認爲基於原子有可能打造一個非常好的生物模態的基礎模型,能夠表達包含小分子和蛋白等不同尺度的相互作用,並且未來可能有更多的生物語義發展起來,所以我們覺得這是一個解決多尺度建模問題的重要方法。
最近我們有合作提出一個工作,起了個名字叫 ESM All-Atom(ESM-AA)。這個模型通過將蛋白質的一部分氨基酸展開(Unzip),把它整合成對應的原子,通過混合蛋白數據與分子數據進行預訓練,這樣模型就同時具備了處理不同尺度生物結構的能力。訓練的時候,不光有蛋白質,我們還把分子、小分子數據也放在模型裡面。爲了幫助模型更好地學習和優化原子尺度的信息,我們還利用原子尺度的分子結構數據進行訓練。通過引入多尺度位置編碼的機制,模型可以很好地對不同尺度的信息進行區分,確保模型能夠精準理解殘基層面和原子層面的位置和結構的信息。
ESM-AA 模型多尺度預訓練過程概覽。核心是多尺度位置編碼(Multi-scale PE)模塊,分別處理蛋白質和分子的不同尺度信息。模型的輸入是單獨的蛋白質或分子,而不是蛋白質-分子對,這種設計使得模型能夠學習更通用的表示,適用於各種蛋白質-分子相互作用任務。來源:Zheng et al., arXiv:2403.12995, 2024
機器之心:在您看來,如果我們要把所有的生物模態都統一到一個框架下面來表示,還有哪些難點需要去克服?
聶再清:如果要實現一個統一的框架來表示生物模態信息,首先要有很多的數據,把人體的組織、細胞、蛋白以及小分子藥物之間的關係,通過高通量測序等技術進行數字化,這樣就能產生大量的數據。
未來有了數據之後,怎麼打磨一個模型?這個模型能夠既考慮宏觀又考慮細節,我覺得有可能像視覺識別裡面的物體檢測(Object Detection),每個區域都有語義,例如裡面有一輛車、車上有輪子、輪子還有很多更細的 Object,當然最後它們都由最基本單元——像素(Pixel)組成。計算機視覺有很多跨尺度研究的工作,與我們最近研究的空間轉錄組單細胞表示學習工作有些類似。
團隊提出了單細胞與文本跨模態大模型 LangCell,將單細胞 RNA測序(scRNA-seq)數據和相關的元數據(如細胞類型、發育階段和疾病狀態)整合到一個統一的框架中,實現對單細胞數據的全面理解和多模態表示。來源:S. Zhao et al., LangCell: Language-Cell Pre-training for Cell Identity Understanding, ICML 2024
但是,在融合單細胞、蛋白質和小分子這些跨尺度的生物數據上,在算法上又需要有大量的創新。不同尺度之間存在複雜的相互影響和依賴關係,如何在模型中準確捕捉和保持這些關係是一個重大挑戰。對此,可以設計跨尺度的注意力機制,確保不同尺度的信息能夠有效地互相影響和補充,幫助模型有效整合不同尺度的信息,從而提升模型的準確性和魯棒性。
不同模態的數據在結構、尺寸和特徵分佈上存在顯著差異,如何有效整合這些異質數據是另一個關鍵挑戰。未來我們計劃將更多生物模態的數據都映射到原子表示空間,實現數據的兼容和互操作,確保不同尺度和模態的數據都在一個共享的表示空間中進行映射和交互,實現信息的無縫融合。
在模型訓練過程中,可以結合多任務學習,比如蛋白質摺疊、Co-folding、蛋白質-小分子相互作用預測、藥物毒性預測、分子編輯等等,提升模型的泛化能力。利用大規模的生物數據進行預訓練,捕捉豐富的生物知識和多尺度信息,爲下游任務提供一個強大的生物數據 Foundation Model。
機器之心:那現在水木分子在數據這方面有什麼投入,或者是說重點投入在哪裡?
聶再清:我們現在大量的數據還是基於公開數據,就是已經做了實驗也被公開出來的數據。除了這種實驗數據以外,我們還有很多文本數據,其中可能有幾千萬的論文、專利,還有很多結構化的知識庫數據,那麼,這些數據如何去跟生物模態的數據對齊,這部分的工作很有挑戰,也是我們數據工作的重點。
假設你要去找到一個小分子跟文本的對齊的 Pair,那這個文本不僅要能描述這個小分子,還應該方方面面都講到,從不同的角度去描述,我們叫做多視角(Multiview representation),比如關於小分子的描述,可以是關於小分子的基團,每個基團起什麼作用,也可以是小分子在宏觀上的性質,還可能是這個小分子在某些結構上某些功能的描述,這樣纔有利於大模型學習。不光是在數據處理上,在模型的研發上最好都能考慮到這些。
團隊提出的分子表示學習模型 MV-Mol,將化學結構的專業知識和生物醫學文本中的非結構化知識以及知識圖譜中的結構化知識融合到一起,利用文本提示來模擬視圖信息,並設計了一個融合架構來提取基於視圖的分子表示,實現了對分子特性的更準確預測以及在分子結構和文本的多模態理解方面的性能提升。來源:Y. Luo et la., Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge, KDD 2024
我們要做這個行業的助手,就得把知識搞準確,我剛纔講的是用來訓練模型的數據,還有一部分數據是在用戶在提問的時候,我們也要把最準確的知識回答給用戶,爲了具備這樣的能力,那對於這部分能力,我們正在建一個水木分子的知識庫。
我在微軟做了很多實體挖掘、實體搜索的工作,其實在很早以前我做過一個叫做「人立方」的項目,把各個人的各個信息,不管是結構化的、非結構化的都集合起來,然後用一個搜索,一搜就能夠搜到關於這個人的各種各樣的信息,那個工作在知識圖譜那個年代還是比較有引領作用的,對於我們正在構建的水木分子知識庫,也有很多的借鑑意義。我們正在做一個叫 EntityChat 的技術,希望對一個實體的問題,可以利用它的結構化知識、非結構化的知識和生物模態的知識去回答。
04、藥物研發助手 ChatDD:
產品、服務及商業模式
機器之心:水木分子現在是已經推出了產品級的應用 ChatDD,您能夠結合具體的使用場景給我們介紹一下嗎?
聶再清:我們希望 ChatDD 成爲這個行業的助手,所以希望它能夠解決藥物研發各個環節中的問題。我們現在主要集中在三大類場景:立項、臨牀前藥物研發,以及臨牀試驗。在每個領域我們都希望找一個燈塔客戶去合作,看一看他們的真實需求是什麼,我們模型和數據的能力要怎麼才能夠去解決他們最核心的痛點,所以每個場景都不大容易。以立項爲例,我們也在與一個比較頭部的公司在合作。
如果藥廠要開展一個項目,首先需要找到足夠的證據提交給這個公司的立項委員會,假設每個公司都有一個立項委員會,它肯定要去做一個規劃方案,提供足夠的材料證明這是一個好項目,能爲公司帶來巨大的前景,或者說風險有限,或者我們必須去做等等。
當然,藥物研發的項目有多種,可能是創新藥項目,也叫 First-in-class,也可能是 Best-in-class,就是這個藥人家已經有了,那我們做得更好;還有一個就是仿製藥,別人專利過期了,我們把它給做出來,只要能賺錢也可以。不同的立項,用到的數據和模型的能力可能也不大一樣。
但不管你做創新藥還是做 Best-in-class 或是仿製藥,都要去考慮市場和行業競爭對手。其他的藥發展怎麼樣,這個疾病的人羣怎麼樣,這種藥現在有沒有專利,專利是不是要到期,這樣海量信息的融合、查找以及預測,如果讓人去做,是非常 Time consuming 的,那用大模型就能夠很好地解決這一部分的工作。
然後還要與專家密切溝通,專家還得要用提示詞(Prompt),不斷地去利用經驗和直覺,與大模型互動,最終還是得讓專家做出判斷。大模型則是能夠給專家提供足夠的證據或者建議,說發現了這個通路,或者發現了這個東西可能是個通路,或者說前人已經在這個方面提出過這麼一個觀點,正好能融合上……通過 ChatDD 這種不斷的交互,我們希望讓這個項目的帶頭人,他和他的團隊最後能夠找到一個非常好的市場空間,去助力他給公司提供立項證明。
機器之心:ChatDD 已經能夠在立項這個環節起到非常大的幫助了?
聶再清:對,我們的客戶反應還是非常好的。
機器之心:那您公司的產品是模型還是服務或是其他呢?
聶再清:我是覺得我們的盈利模式還是比較多種的,一種就是大模型,客戶可以進行賬號訂閱,也可以進行雲部署或私有化部署。在剛開始階段這是一個比較好的盈利模式。
我們現在正在啓動的一個模式,是提供一些服務。我們公司可能有些顧問,有些生物專家,用 ChatDD 幫客戶立項,或者去做臨牀前的藥物發現,或者做臨牀,這個模式對我們打造產品也很有好處,能夠提升我們模型的能力,同時端到端地解決客戶問題。做到一定程度以後,如果我們成爲這個行業裡靠前的提供商,大量的生物醫藥任務都是由 ChatDD 在幫忙解決,我們可能還有一個模式,那就是應用商店。
因爲 ChatDD 要解決問題,並不是完全靠自己的大模型,它還要去查閱行業內最好的數據,去調用行業內別的好用的工具。通過這樣的一個助手,把行業裡所有工具整合起來的應用商店模式,我覺得在未來會是一個非常重要的盈利模式,不僅僅是 ChatDD,我覺得未來 ChatGPT,或者說 Llama,就是 Facebook(Meta)可能也會採用這樣的模式,因爲它開源之後大家都在用,就有很多整合的空間。那這樣的話這個模式可能就變成了,如果我們 ChatDD 使用了第三方的工具,我們付費給第三方,但抽一部分成。同時也可以開展廣告,比如告訴客戶說有個新的工具,你要不要試一試。
助手一旦真正在用戶心智中佔了主要的地位,在賦能這個行業的生態上面其實有非常大的空間。最終,我覺得在生活上可能會有一個應用商店,在工作上每個行業又會有一個行業的應用商店。
機器之心:經過您剛纔的介紹,徹底打開了我對於藥物研發助手的理解,最開始的時候我還侷限在如何去研發更好的藥,如果真正成了一個入口級別的助手,將來的想象力是非常大的。
聶再清:這樣一個(人機交互)入口模式,其實也不只是在大模型火之後纔有的,之前我不是在做天貓精靈嗎,那時候很多大廠都在做語音助手。那個助手跟現在這個助手一樣,都是希望成爲交互入口,爲什麼大家都投那麼多錢去做?就是擔心一旦有的助手成了(新的)入口,以前的商業模式就不在了,所以大家都花了重金去做這件事。當時我們做的也是不錯的,就是在封閉域,也就是在經過訓練的領域,能夠做得非常不錯。
舉個例子,我們在播放助手上就做得不錯,這就是一個封閉域,你可以播放音樂、播放電視,在語音助手出現之前,用戶需要使用遙控器輸入文字來搜索內容,操作繁瑣。現在直接就用語音,就很簡單,而且最後它還要推薦,比如推薦某首歌,就很難拒絕,每次都問你不聽這首歌嗎?這很難的。在封閉領域,我們上一代的技術就已經非常好了,準確度很高,對用戶也已經產生了價值。
機器之心:因爲它是基於用戶的愛好學習過的。
聶再清:對的,所以 ChatGPT,包括我們現在的 ChatDD,最大的技術進步就是在開放域上,也就是沒有經過訓練的領域,它也能夠觸類旁通,爲什麼說它是通用人工智能的曙光?你在 n 個任務上用自然語言提示作爲訓練,在第 n+1 個沒訓練的任務上它也提升了,那離這個助手的願景就更近了。
機器之心:在生物醫藥行業裡面,對這樣的一個全新的助手,接受程度怎麼樣呢?
聶再清:最近我們也在跟很多客戶聊,我覺得前景是非常好的。這樣一個助手它有幾個階段,第一個階段可能提供很多工具的調用以及翻譯的能力,就是把生物語言與自然語言進行翻譯,這是馬上就能幫到的。但是在生物模態上直接幫助進行藥物的設計,不管是小分子還是大分子設計,雖然現在也能幫,但效果可能在溼實驗上還不能完全超越人類專家,所以我們得人機協作。如果有一天模型能夠自行設計出每一個分子,人類基本上都只能仰視的時候,那我感覺我們生物醫藥的「ChatGPT 時刻」就到來了。
05、哪些行業適合研發垂直大模型
機器之心:現在關於通用大模型和垂直大模型有一個爭議,是從頭訓練一個自己行業的大模型,還是拿一個開源的基座,用自己的數據來微調,這兩者之間的差異如何判斷?
聶再清:我個人覺得可能不需要從頭訓練一個文本的大模型,因爲文本這個自然語言的語法,通用大模型都學到了,因爲它(數據)多,多的話就學得更準,理解得更清楚。但是在垂直行業裡面,可能有很多自己的數據,這些數據不是自然語言,它有自己的語法,那這個時候你用通用大模型也學不了,對吧?
那所以這個行業是否需要一個垂直大模型,關鍵是它有沒有自己獨特語法的數據,這個數據非常影響它下游任務的性能,如果是,這就是一個需要垂直大模型的行業。當然,是不是隻做這個行業模態的大模型就行了呢?也不行,爲什麼呢?因爲每個行業裡都有人,都積累了很多行業內部的知識,這些知識是用自然語言構成的,那人也希望用自然語言跟這個大模型進行交互。
爲了讓人能夠更好地交互,更好地去了解這個行業的數據,我們還需要一個多模態大模型,將自然語言和這個行業數據對齊,進行翻譯。
機器之心:尤其是生物醫藥這樣的行業,包括化學、新材料。
聶再清:自動駕駛。
機器之心:那比如說法律大模型,其實就沒有必要自己從頭訓練一個,就用基座大模型,然後用專有的數據微調就好了?
聶再清:對,做持續訓練(Continue train)和做 SFT 就比較足夠。
機器之心:那這個非自然語言模態的行業大模型,要實現智能涌現,或者是說足夠智能能夠幫助人或者是與人協作,它的規模有一個閾值嗎?
聶再清:規模的來講我覺得肯定也不能太小,一般都說至少 10B 以上。如果有這樣的數據,我們需要去找到訓練這個多模態大模型的 Pair 數據,也就是文本和這個行業模態數據的對齊的 Pair,找到很多這樣的 Pair,這是需要領域知識才能夠去找全、找準。如果不全不準,那可能不行。所以一個做行業大模型的公司,肯定也需要跟這個行業的專家一起構建行業大模型。
06、藥物研發的未來
機器之心:您之前提到未來一定是人機協作式的藥物研發,您能描述一下您理想中的人機協作式藥物研發具體是什麼樣子的嗎?
聶再清:人機協作的藥物研發最好的方式就是把人的長處和機器的長處都用上。人的長處在我看來是什麼呢?更多的是這個人的經驗和直覺。那機器的長處是什麼呢?如今大模型能夠幫我們處理海量的數據,調用各種各樣的工具,然後自動化地、高效率地去計算,所以把這兩個長處利用好,是我覺得人機協作最重要的一件事情。
具體來講,像 ChatDD,我們就希望製藥的那些「老法師」,能夠把他們的經驗和直覺用一段話,用文字總結,也可以畫一張圖,或者說做成某個文件,總的來講就是把人的經驗和直覺,能夠數字化下來,變成大模型的輸入,ChatDD 會根據這些輸入,迅速在模型學習過的海量數據、文獻或水木分子知識庫中找到相關的結構化、非結構化和生物模態數據,並給出解答。這個解答過程可以看作是機器對人的一種提示(Prompt)。同樣,專家的提問也是對機器的一種提示。通過這種人機之間的不斷交互和相互提示,我們可以逐步縮小解空間,最終找到正確的解決方案。
ChatDD 的目標是成爲醫藥行業內所有人都離不開的智能助手,大幅提升藥物研發全流程的效率。ChatDD 不光會利用大模型自己學到的知識,也會調用醫藥行業內各種最好的專業工具(比方說最受歡迎的可視化 Docking 工具或者 SOTA 藥物屬性預測算法),同時也會實時查詢第三方的專業知識庫。
我們也在和醫藥行業的專家緊密合作,將醫藥行業的日常工作任務和推理方式自動化。將類似 OpenAI o1 的更強大的推理能力引入生物醫藥大模型,讓推理過程更接近專家的推理過程。希望更多科研人員和生態合作伙伴和我們一起,構建最有效的生物醫藥多模態大模型,共同迎接生物醫藥的「ChatGPT 時刻」,實現生物語言模型的智能涌現。
嘉賓簡介
聶再清博士,現任清華大學國強教授和 AIR 首席研究員、水木分子首席科學家。從事大數據與人工智能的前沿創新,以及健康醫療領域的產業應用,是十四五國家重點研發計劃「新藥研發大模型」課題負責人。帶領團隊研發並且開源了全球首個多模態生物醫藥大模型 BioMedGPT 和 OpenBioMed 工具包,賦能生物醫藥行業科研和創新。提出並牽頭研發了全球首個車路協同自動駕駛數據集 DAIR-V2X,解決了自動駕駛產業以往缺乏真實場景車路協同數據集的痛點;團隊提出的貢獻感知聯邦學習框架獲得 AAAI-IAAI 2022 人工智能創新應用獎,並在智慧醫療健康的產業應用中得到驗證。
聶再清博士 2004 年獲得美國亞利桑那州立大學博士學位,師從美國人工智能學會前主席 Subbarao Kambhampati 教授,本科和碩士畢業於清華大學計算機科學與技術系。2017 年加入阿里巴巴,任達摩院人工智能實驗室北京負責人。此前就職於微軟亞洲研究院,任首席研究員,是微軟學術搜索和人立方的發起人和負責人,也是微軟自然語言理解平臺 LUIS 的技術負責人。發明的知識圖譜相關技術、對象級別的信息搜索技術、語音語義一體化理解技術等,被廣泛應用於互聯網搜索引擎、聊天機器人以及智能助手等領域。引領了業內大數據驅動的知識圖譜挖掘和應用相關技術的創新,在微軟期間被授予 Microsoft Golden Star 獎。在阿里巴巴期間,作爲天貓精靈首席科學家,帶領團隊從無到有實現天貓精靈的算法研發和創新工作,把人工智能最前沿技術真正落地到千家萬戶。2019 年他所帶領的團隊獲得吳文俊人工智能科技進步獎。