對話深勢科技王東東:AI4S的應用正在改變遊戲規則

“當前,AI4S行業正逐漸擺脫單純追求模型能力的階段,轉向解決深層次問題的深耕期。”

近日,在界面新聞財經年會上,深勢科技藥物發現部聯席總裁王鼕鼕接受了界面新聞的採訪,就AI for Science(科學智能,下稱AI4S)行業的技術發展,商業化落地等問題交流。

這家來自中國的公司正在與美國硅谷的谷歌SandboxAQ等大公司競爭。2023年11月,深勢科技基於自主研發的有機分子大模型Uni-Mol,發佈了Uni-MolDockingv2,其性能超越了DeepMind。

深勢科技的Uni-Fold也是國內首個復現AlphaFold2,在推理速度、單體蛋白結構預測精度、蛋白多聚體結構預測精度等指標超越AlphaFold2的模型。在相同的測試條件下,Uni-Fold的預測精度超越了華盛頓大學DavidBaker教授課題組研發的RoseTTAFold,與DeepMind官方發佈的AlphaFold2模型接近,且支持的最大蛋白序列長度增至2倍,有更強的通用性。

2024年諾貝爾化學獎頒給了大衛·貝克(DavidBaker)、德米斯·哈薩比斯(DemisHassabis)和約翰·M·詹珀(JohnM.Jumper)等人,這也是AI for Science全新科研範式得到最高的認可,爲行業再添了一把火。

“當前,行業正在從基礎能力的快速提升期逐步進入‘挖深礦’的深耕階段。”王東東判斷,AI4S將進一步優化預測設計的精度和複雜度;在大數據驅動和知識圖譜輔助方面,解決現有數據不足和知識遷移問題,以及產業化與規模化所面臨的成本、算力、模型可解釋性等挑戰,

在他看來,科學智能的“GPT-3.5時刻”更多是指AI4S技術在規模、精度、應用範圍的全面躍升,具備大規模實際應用能力的時間點。而要達到“GPT-3.5時刻”有三大技術前提:

一是大模型架構的進化:在更高維度的數據和算力支持下,能夠精準解決更復雜的科學問題。二是多模態AI的突破,也會帶來結合語言、視覺和其他感知能力,提升科學研究中的協同能力。三是科學實驗閉環支持,實現從模型預測到實驗驗證的高效閉環。

王東東預測,未來幾年,隨着技術能力的持續迭代、跨領域應用的深化以及產業化的推進,AI4S的“GPT-3.5”甚至N.0時刻將隨時到來,屆時將推動科學研究與產業的深度融合,實現質的飛躍。

面對大模型行業普遍面臨的商業化落地難題,深勢科技提出“一橫一縱”技術佈局策略,具體來看,在橫向上通過通用化的AI模型和算法工具搭建技術平臺完善AI基礎設施,在縱向上深耕特定的科學領域,如分子模擬、材料設計、蛋白質預測等。

此外,在AI+基礎設施部分,深勢科技還研發面向AI和科學計算場景的異構雲原生算力調度平臺勒貝格,實現算力資源的高效管理與精準調度。

縱向佈局上,深勢科技目前深耕在教學科研、生命科學、物質科學。目前已經打造出專爲科研人羣打造的計算平臺,例如擁有海量的CPU/GPU算力資源和集羣化彈性調度的能力Bohrium®玻爾®空間站,利用AI4S加持的CADD工具加速理性藥物研發的Hermite®藥物計算平臺、RiDYMO®基於AI for Science的高質量Hit發現平臺、Piloteye®能源電池研發解決方案和玄鑄人工智能與物理建模驅動的材料設計平臺。

“AI4S的應用正在改變遊戲規則。”王東東告訴界面新聞,AI4S在藥物研發和新能源材料開發中都在產生顛覆性變化。

過去,藥物研發傳統上是一個高成本、高時間投入且高風險的過程,AI4S應用能夠提升了科學家在蛋白質分子設計與優化、早期靶點發現與驗證、虛擬篩選的精準化和個性化治療等研究方面的效率。

據其介紹,在新藥研發領域,常常被提到“研發週期10年、研發費用10億美元”的雙十定律,深勢科技的“Hermite”藥物計算設計平臺能夠通過精準的計算模擬大幅縮減實驗次數,加倍提升藥物研發各環節效率。

而在新能源材料領域,AI4S幫助科學家快速且精確地預測材料性能,比如通過AI與量子化學計算相結合,能夠預測新材料的熱穩定性、電導率、比容量等關鍵性能,大幅降低實驗篩選的不確定性。

目前,深勢科技已經與業內超過50家生物醫藥、新能源和新材料企業進行合作。儘管市場空間足夠大,但王東東也指出,當前的AI4S領域仍舊面臨挑戰,在很多場景中,需要部分成本則是在於教育用戶,例如,深勢科技需要跟藥物客戶都是建立長期合作關係,要陪客戶走完一整個驗證週期。

此外,數據稀缺性也是AI模型訓練的主要障礙之一。在王東東看來,相比數據量,其實對結果影響更大的是數據的質量。一是語言這種相對主觀的數據,二是化學、生物有評判標準的數據。目前,深勢科技通過訓練AI獲得數據,解決實體工業數據不足的情況。

“科研和市場化之間的平衡不是一個‘選擇’問題,而是如何更好地融合且共贏的問題。”王東東告訴界面新聞。