對話聶再清:生物醫藥即將迎來“ChatGPT時刻”,2-3年內實現重大技術飛躍

出品|本站科技《態度AGI對話》欄目

作者|丁廣勝 楊霞清

所有行業都值得用大模型重做一遍,生物醫藥這個被視爲門檻極高的行業,也裂開了一道縫,AI科學家們看到了機會。

報告顯示,目前單款新藥的研發成本已經飆升至25.6億美元,而整體開發成功率僅有3.5%。這讓無數藥廠頭痛不已。

好消息是,大模型技術的智能涌現能力和觸類旁通能力已經開始在各行各業發揮重要作用,製藥行業也開始積極採用這一技術。數據顯示,人工智能在生物製藥領域的應用正在不斷擴大。通過大模型技術,藥物的臨牀前研發階段(例如,從小分子候選化合物的提名到首次受試者給藥的典型時間間隔2-3年)將顯著縮短,同時藥物的臨牀通過率也有望顯著提升。預計在未來幾年內,大模型驅動的生物製藥企業和服務公司將在行業中發揮至關重要的作用。

清華智能產業研究院(AIR)創立伊始就將生物醫藥視作最重要的一個研究方向,並孵化了水木分子,這家公司專注於生物醫藥垂直行業大模型的研發與應用。產品將服務於藥物研發各環節,包括早研立項、靶點發現、分子設計優化、臨牀實驗設計、藥物重定位等。

至2024年8月,水木分子累計獲得近億元人民幣的融資,天使輪由華山資本領投,道彤投資、訊飛創投參與投資,清智資本參與了種子輪融資。募集資金將主要用於生物醫藥多模態大模型,以及對話式藥物研發助手工具 ChatDD 產品的研發。

水木分子的首席科學家由聶再清博士擔任。他是清華大學國強教授、AIR首席研究員。曾任微軟亞洲研究院首席研究員,主要負責微軟自然語言理解、實體挖掘的研發工作。曾經是阿里巴巴人工智能實驗室北京研發中心負責人和阿里巴巴天貓精靈首席科學家。2004年獲得美國亞利桑那州立大學博士學位,師從美國人工智能學會前主席Subbarao Kambhampati教授。

聶再清告訴本站科技《態度AGI》,生物醫藥行業需要人工智能來賦能,之前做藥的主要途徑是“老法師”做實驗,經驗直覺非常重要。後來雖然有了CADD(計算機輔助製藥),但“老法師”仍然發揮主動權。到AIDD階段,這時候一些AIDD公司宣傳創新藥物可以是AI獨立研發出來,但其實不大可能。

“做藥最好的方式是‘老法師’專家和AI密切地交互結合。”聶再清表示。

聶再清希望打開製藥這個“黑盒子”。他說,水木分子的ChatDD大模型是多模態的,讓專家用自然語言與生物醫藥大模型對話,這可以讓“老法師”更好地理解生物數據,讓生物數據和大模型算法推薦結果更具解釋性。“我們希望業界把水木分子與最領先的生物醫藥大模型能夠畫上等號。”

他認爲,預計最快未來兩到三年,生物醫藥就會迎來“ChatGPT時刻”。“我們成功的標誌是大部分創新藥物的研發是通過我們的大模型和老法師密切協作產生的,這纔是對人類最大的貢獻。”聶在清說。

以下爲本站科技對話聶再清博士實錄:

本站科技:您曾就職於微軟亞洲研究院和阿里等公司,是什麼促使決定投身“AI+製藥”,出任水木分子的首席科學家?

聶再清:“ 通用人工智能的曙光”閃現。

現在大量的物理世界的信息已經被數字化了,人針對大量的數據找規律、找優化路徑是困難的,在未來的數字世界,我們想象有智能助理做管家,幫人處理數據、執行任務。我之前參與天貓精靈智能助手的研發,天貓精靈封閉域做得很好,根據你的指令做正反饋。但上一代中國的智能音箱開放域做得不行,不過這個問題被ChatGPT大模型解決了。所以大家說看到了通用人工智能的曙光。

在通用智能時代,我希望去從事大模型相關的創新。在通用大模型和行業大模型中,我選擇了行業大模型。太多人去卷通用大模型了,我反而覺得通用模型在TO B端需要通過深入行業才能產生價值。

“蛋白質宇宙”和“生命與自然語言跨模態翻譯”成爲AI科學家的嚮往。

選擇生物醫藥,是因爲生物醫藥是個特別好的行業,它的生物模態數據的表示學習門檻很高。生命編碼語言和自然語言是有差別的,打比方來說,蛋白質也有其語言體系,已知蛋白質結構有上億種,它是由氨基酸序列組成的,這種序列會決定蛋白質的結構,結構又決定了蛋白質的功能。生命編碼語言也有自己的語法規律,遵循自然選擇的物競天擇法則,需要有獨特的大模型來理解其中的規律。

水木分子孵化於清華智能產業研究院(AIR)。2020年我加入清華智能產業研究院開始做科研。在微軟亞洲研究院也負責過微軟自然語言理解、實體挖掘的研發工作。以前做科研的很多經歷,對從事這個方向非常有幫助。

本站科技:外界比較關注水木分子的藥物研發助手Chat DD,目前Chat DD有了哪些進展?

聶再清:我在清華大學智能產業研究院帶領團隊,提出一種全新的多模態語義理解框架BioMedGPT,支持分子、蛋白、自然語言跨模態基礎模型。2023年4月,團隊開源了輕量科研版BioMedGPT1.6B。這項技術受到了很多關注,我們覺得可以繼續孵化,打造成一個真正的產品。

輕量科研版BioMedGPT1.6B,驗證了將文獻、分子、蛋白、測序、知識圖譜等數據壓縮到統一的多模態大模型框架,可使模型具備“融匯貫通”的能力,在分子性質預測、藥物靶點親和力預測、性質預測、藥物敏感性預測、分子文本跨模態檢索、分子文本跨模態信息生成等多項任務上優於單一專用模型,從研究層面驗證技術可行性。

之前做藥的主要途徑是“老法師”自己做實驗,在這個過程中,“老法師”的經驗直覺非常重要。

製藥的發展經過多個階段。 第一代手工製藥TMDD: 基於經驗主義,依託專家經驗與直覺,通過大量實驗試錯來實現;第二代計算機輔助設計CADD:通過計算機模擬建模,減少了對溼實驗的依賴;第三代人工智能輔助設計AIDD:應用人工智能技術從訓練數據中挖掘藥物發現和設計規律。AlphaFold的問世驗證了人工智能可以產出同實驗室方法精確度相當的蛋白質結構預測結果,但成本卻大幅降低。AIDD通過最近幾年的發展,吸引了大量科技公司涌入該賽道。雖然AIDD應用人工智能技術從訓練數據中挖掘藥物發現和設計規律,但一直面臨訓練數據不足、信息與知識分離、工具服務分散、處理模態單一等挑戰。

可以看出,後來雖然有了CADD,但“老法師”仍然可以發揮主動權。到AIDD階段,算法和“老法師”的交互做得還沒那麼好。有些AIDD公司說藥可以是AI做出來的,但實現還不大可能,一定得要有人蔘與,最好的方式是“老法師”專家和AI密切地交互結合。

如果能通過一個大模型把所有外部的知識、數據和工具全部整合,再把科研人員的問題通過提示詞傳輸到大模型中,形成交互,把人的知識和直覺與機器理解數據的能力融會貫通,會是比較好的交互方式。

水木分子提出的ChatDD ,將人類專家知識與大模型知識聯結起來,通過自然語言與生物編碼語言協作,打造新一代對話式藥物研發助手,重新定義了藥物研發的模式。它以全新的方式來應對藥物研發中的各種挑戰,爲實現高效、精準的藥物研發提供了新的可能性,致力於加速創新藥的開發和上市,同時助力降低研發成本、時間與風險。

本站科技:具體ChatDD是如何在製藥過程中發揮作用?

聶再清:我們希望ChatDD成爲領先地位的生物醫藥行業大模型,它會貫穿在生物醫藥行業的全流程之中。它不僅還具備專業知識力、認知探索力和工具調用能力,目標是助力服務醫藥研發全流程場景,包括立項調研、早期藥物發現、臨牀前研究、臨牀試驗、藥物重定位等。

比如,要不要立項開發?要不要上臨牀?一期通過要不要上二期?在這些問題上,它都可以助力專家去決策,做到有據可依。

生物醫藥大模型可以做很多工作,在臨牀前的藥物研發階段,藉助大模型進行靶點的決策和小分子的虛擬篩選、優化。在臨牀階段,如何讓一個藥更好地通過臨牀,這是藥廠非常關心的,我們可以通過大模型去設計臨牀試驗。

本站科技:水木分子在開發ChatDD的過程中,團隊遇到了哪些挑戰?

聶再清:文化差異是最大的挑戰。人工智能和生物醫藥屬於兩個圈子。大模型屬於互聯網+AI文化,要求是快速迭代、唯快不破,而做醫藥則要穩重,得保證路徑是對的,否則就得推翻重來。所以在團隊建設上需要跨過交叉學科的門檻。

本站科技:目前水木分子已經與博奧晶方、復星醫藥等企業建立了合作關係,具體合作模式是什麼樣的?

聶再清:與兩個企業的合作方向不一樣,跟復星醫藥主要聚焦在“立項”這個階段,跟博奧晶方更多是在信號通路挖掘方向。

博奧晶方與水木分子合作,基於博奧晶方在中醫藥方向的原創分子本草技術和水木分子的創新算法,重點聚焦以ChatDD-FM和組學大數據形成中藥靶標發現智能體,促進中醫藥理論創新,說清楚、講明白中醫藥療效,助力科學內涵相對清晰、療效確定的中藥新藥研發和精準用藥應用。

復星醫藥攜手水木分子,充分利用復星和水木分子寶貴的專有數據和專家知識,依託水木分子的ChatDD-FM,重點關注自動情報分析和商業價值評估等場景,打造AI助力的創新決策系統。該系統旨在提升傳統人工追蹤海量實時變化行業信息的效率,解決商業評估客觀性和標準一致性的問題,多維度、全方位、快速高效地決定項目的go與no-go,助力提高研發成功率。

水木分子在成立不久獲得客戶的認同,歸根結底是大模型有用,能夠解決業務痛點,除此之外就是用戶對我們的產品、技術充分信任。

本站科技:製藥方面的需求,藥廠有兩個選擇,一是用通用大模型自己訓練,二是用水木分子的行業大模型,您接觸的藥廠有沒有這樣的糾結?

聶再清:肯定是有的,製藥行業客戶用大模型有不同的需求,也有通用大模型能解決的場景(比方說翻譯)。其實有客戶拿ChatGPT和ChatDD作翻譯方面的比較,會發現我們比通用模型好很多。因爲在生物醫藥行業,有很多專用的術語,通用模型翻譯得沒那麼好。但是在很多要處理生物模態數據的場景(比方說藥物設計,BioMarker篩選等),客戶就不會有對通用大模型的糾結。

本站科技:ChatDD有什麼創新點?

聶再清:ChatDD是多模態的, 讓專家用自然語言與大模型對話。比如用自然語言去問蛋白質的規律。我們可以做到,真正賦能專家和老法師,讓他們更好地理解生物數據,讓生物更有解釋性。

水木分子提出的ChatDD藥物研發助手的目標就是建立一個高效的聯結,把科學家的經驗和直覺,與海量生物數據(分子、蛋白等)、文本、結構化知識的融會貫通,以及各種藥物發現和設計的工具結合起來。通過這種方式,科學家的大腦和大模型能夠相互提示補充,共同推動藥物研發的進程。

大模型最令人驚喜的能力是智能涌現與觸類旁通。生命現象的本質也是一種自然進化的編碼語言。將人類總結的知識與氨基酸、分子、蛋白等數據壓縮到統一的大模型框架內進行編碼和學習,有望理解生物編碼的語言機制,進而從底層推動與生命科學相關的研究與應用。我們致力於打造領先的專注生物醫藥的融合生物編碼+自然語言的多模態大模型。

本站科技:ChatDD在市場上有競爭對手嗎?

聶再清:有些公司在做生物模態,有些公司在做醫療,但完全定位於做生物醫藥行業多模態研發助手的,水木分子肯定是走在前面的,我們處於領導地位。

我們希望水木分子與生物醫藥大模型能夠畫上“等號”,成爲生物醫藥行業中的大模型公司。用戶只要一提起生物醫藥大模型就能想到水木分子、ChatDD。

本站科技:ChatDD現在處於第幾個版本?

聶再清:產品每三個月會有一個版本,很難說具體是哪個版本。因爲內部的ChatDD版本本身沒開源。但是對於BioMedGPT的開源已經至少有兩次,一次是16億參數,一個是100億參數。

本站科技:團隊有多少人在做產品的研發?

聶再清:水木分子還在繼續穩步擴張中,目前團隊不超過100人。我們組建了“AI+醫藥”、覆蓋技術、產品、商業化和市場的創始團隊。前IBM阿爾馬登研究院人工智能平臺部門研究負責人、美國國家工程院工程前沿傑出青年工程師喬木博士擔任CTO,他也曾是IBM發明大師和IBM全球技術學院成員;世界500強企業強生前高管、前藥明康德副總裁,擁有三十餘年藥物研發、創新技術應用、國際國內合作生態建設經驗的李秀豔博士出任聯席首席科學家;500強藥企藥明康德前副總裁邢傑爲首席運營官,負責推進水木分子全球商業化發展等事務;前阿里天貓精靈對話引擎和智能運營技術團隊負責人張鐵蕾任工程副總裁,他還曾任快手商業化事業部業務中臺研發中心負責人。

本站科技:ChatDD在數據層面是如何構建的?

聶再清:我們主要基於公開數據。基於大量的文本數據結合多模態數據、大分子、蛋白質和文本對齊的數據。同時,我們也在建水木分子的知識庫,現在提出一個叫EntityChat的概念,將結構化、非結構化、多模態的資源數據融合在一起,形成實體和別的實體之間的關係圖,實現對一個分子、藥物或靶點的全方位提問。

本站科技:當下大模型公司的商業模式大家並不樂觀,水木分子未來有哪些商業化模式?

聶再清:主要是三個方向:一類是提供工具,比如提供大模型或大模型的上層應用,通過公有部署、私有化部署等方式來收費。另一類是提供服務,類似於IBM的諮詢服務、或者醫藥行業的CRO服務。還有一種盈利模式是應用商店模式,ChatDD中包含很多工具,在ChatDD調用工具完成用戶的任務後,直接給每一個應用提供商利益分成。

本站科技:8月水木分子剛宣佈融資近億元,如何去花這筆錢?

聶再清:融資的資金會用在技術和產品的突破上。首先在生物醫藥的基礎模型上有所突破,希望爲行業打造最好的生物醫藥的多模態基礎大模型。其次就是產品研發,我們希望大模型真的能夠幫到行業,解決他們真實的問題。我們會跟資源方做持續性的探討,不斷打磨產品和技術。成功的標誌是未來大部分的創新藥物是ChatDD和老法師協作產生的。

本站科技:“AI製藥”作爲一個新興領域,您如何看待這個產業的發展現狀,我們處於什麼階段?

聶再清:生物醫藥還有很大的發展空間,整個行業急需一個真正有效的生物醫藥大模型。我判斷,預計兩到三年,生物醫藥會迎來“ChatGPT”時刻。

(實習生王文華對本文亦有貢獻)

關於《態度AGI》

本站科技重磅推出系列對話欄目《態度AGI》。過去三年,AI變革風起雲涌,全球科技秩序正在重構,通往AGI的道路或許正在悄然臨近。本欄目以AGI爲題,將對話100位AI專家、企業家、投資人,試圖撥開雲霧,與大家一道見證AGI時代的到來。第十七期對話清華大學國強教授、AIR首席研究員、水木分子首席科學家聶再清。

往期回顧:

《態度AGI》第一期:對話李開復:大模型創業狂奔一年 中美差距縮小 我十年不套現

《態度AGI》第二期:對話王小川:我們不跟進大模型價格戰

《態度AGI》第三期:對話戴文淵:大模型價格戰不解決核心問題

《態度AGI》第四期:智源研究院院長王仲遠:GPT4不是國內大模型的盡頭

《態度AGI》第五期:對話朱嘯虎:5年後將沒有獨立的大模型公司存在,因爲沒有商業模式

《態度AGI》第六期:對話梅花創投吳世春:“中國大模型五虎”想要跑出來非常難

《態度AGI》第七期:對話躍然創新CEO李勇:做大模型應用 如何和巨頭錯位競爭

《態度AGI》第八期:對話智譜AI CEO張鵬:視頻生成是AGI必經之路,超級App將在“不知不覺”中到來

《態度AGI》第九期:對話科大訊飛副總裁、研究院院長劉聰:中國大模型已從追趕對標走向自主原創

《態度AGI》第十期:對話360周鴻禕:魔法對付魔法,大模型安全問題得靠大模型

《態度AGI》第十一期:對話彩雲科技CEO袁行遠:超越ChatGPT,需要打開“黑盒”

《態度AGI》第十二期:對話傅盛:不看好雙足機器人商業化,三五年都沒戲

《態度AGI》第十三期:對話宇樹創始人兼CEO王興興:通用機器人的iPhone時刻還需要3-4年

《態度AGI》第十四期:對話MiniMax創始人閆俊傑:打不贏,就應該被淘汰對話

《態度AGI》第十五期:對話榮耀趙明:AI時代 開放肯定會擊敗封閉

《態度AGI》第十六期:對話崑崙萬維首席科學家顏水成:大模型的三個共識與三個分歧