萬字綜述(下):大語言模型將爲神經科學帶來哪些前所未有的機會?

大語言模型(LLMs)是機器學習領域中用於處理和生成自然語言文本的新工具。該文提供了對該建模技術的屬性定義,並反思LLMs如何被用來重新構建經典的神經科學問題,以提供新的答案。

我們認爲LLMs有潛力(1)通過添加如高級文本情感分析等有價值的元信息來豐富神經科學數據集;(2)總結大量信息來源,以克服孤立的神經科學社羣之間的隔閡;(3)促使與大腦相關的不同信息源得以進行前所未有的融合;(4)幫助確定哪些認知概念能最有效地把握大腦中的現象。

本文爲論文下篇,書接上文LLMs的屬性及能力等背景介紹,重點討論LLMs在解決神經科學與生物醫學問題方面的運用。

上篇:

萬字綜述:寫給神經科學家的大語言模型基礎原理 | 追問頂刊(上)

▷Bzdok, Danilo, et al. "Data science opportunities of large language models for neuroscience and biomedicine." Neuron (2024). https://doi.org/10.1016/j.neuron.2024.01.016

大型語言模型在生物序列中的應用

LLM學習引擎的歸納能力,不僅適用於詞序列,也同樣適用於各種類型的生物序列,這提供了許多未被充分挖掘的研究機會。人類的基因組,這一包含約2萬個基因的龐大DNA序列庫,構成了大腦及身體其他部位細胞內蛋白質合成的基石。在此基礎上,“生物學中心法則”爲我們提供了一個與神經科學直接相關的自然試驗場景,它描述了遺傳信息如何從DNA中的核苷酸序列,通過信使RNA中的鹼基序列,最終轉化爲蛋白質產品中的氨基酸序列的流動過程。

遺傳學家的主要目標是映射這種遺傳信息的傳遞過程,將DNA序列本身的改變與相應的功能影響聯繫起來。爲此,MetaAI展示了一種蛋白質語言模型(圖3),該模型能從遺傳變異的差異中預測表型後果[29]。通過一個擁有6.5億參數的模型,研究者能夠推斷人類基因組中大約4.5億種可能的錯義變異效應——每種變異都是DNA中單個核苷酸的替換,這一替換可能導致下游蛋白質中的氨基酸交換(有害或良性)。DNA基因編碼中的這些變異特別有趣,因爲它們涉及可以與疾病機制和可能的治療目標聯繫起來的蛋白質改變。這種方法使我們能全面分析人類和其他生物整個基因組中的蛋白質破壞性損傷變異。

▷圖3,蛋白語言模型可預測基因突變的功能影響

此外,我們能否僅從RNA轉錄表達數據中自動推導出細胞狀態和與活躍生物通路相關的洞見?在單細胞RNA基因表達水平上,一個LLM[30]在1000萬個細胞上進行了訓練(圖4),每個細胞包含大約2萬個人類基因的一部分表達值。作爲一個基礎模型的開創性例子(參見上文),基因集在生物學建模中構成有意義的過程,類似於詞語集合在語言中構成有意義的句子。通過吸收大量的基因表達模式,該模型形成了基因間關係和基因-細胞關係的普遍性內部表徵。除了特定基因的標記外,模型還引入了特殊的標記來表示元信息,如細胞類型、數據批次以及實驗條件,如信號通路的擾動和RNA轉錄測序使用的技術。

作者還取消了輸入必須是序列的需求——他們設計了一個任務定製的注意力機制,以緊密把握表達基因的協同出現模式。通過基於迭代預測集合中新基因表達的自迴歸生成,類似於在連續的句子中預測下一個詞彙。也就是說,他們將傳統語言模型處理詞序的方式,巧妙轉化爲在單細胞基礎模型中處理細胞對應的基因集合,從而擺脫了輸入必須遵循序列的限制。

這樣一來,模型一旦建立,訓練好的基礎LLM就可以進行微調和部署,並在各種不同的下游任務中獲得性能提升,包括批次校正、細胞類型註釋和目標擾動條件的預測。這種方法不僅展現了自監督學習技術掌握複雜單細胞機制的潛能,還能利用後續的內部嵌入表示,實現不同器官和物種間的數據整合。

▷圖4,從指數級增加的單細胞轉錄組數據中,構建基礎模型以描述細胞轉錄的語法

從基因層面到3D蛋白質結構層面的轉變,關鍵在於能否僅憑一維氨基酸序列預測出蛋白質的最終三維構型。蛋白質摺疊問題圍繞着我們的DNA是如何壓縮關於最終蛋白質結構信息的。在數據庫中有超過2億種蛋白質結構,AlphaFold[31]這一基於大型語言模型的系統,通過捕捉沿着蛋白質骨架上遠離彼此的氨基酸殘基之間的序列相互作用。在這個給使用暴力(brute force)學習的研究中,研究者展示了1D序列信息確實包含了理解蛋白質在自然界中實際摺疊的複雜過程所需的關鍵信息。

在蛋白質到功能層面,研究者在250億個蛋白質序列(UniParc數據庫)的860億個氨基酸上訓練了7億參數的34層transformer模型[32]。模型內部的嵌入表徵僅從序列信息本身獲得。訓練好的模型被發現能夠包含蛋白質的生化特性、體內形態結構元素、接觸位點和生物活性相關知識。

總的來說,捕捉長距離相互作用(即輸入序列中相距較遠的標記)不僅在詞序列推理中,也在不同生物序列中有意義的一般原則方面顯得非常有價值。自然界似乎隱藏着可以被利用來推斷超出實際序列元素(例如,核酸、基因表達、氨基酸)的潛在一般規則,以服務於下一代計算生物學。學到的序列嵌入可以用於各種下游研究目標,包括質量控制程序、生物實體的分組以及增強表型預測。

此外,LLMs作爲一個平臺現已能夠實現生物學中心法則的先進計算模擬,從DNA的雙螺旋結構到基因的轉錄表達,再到完整的蛋白質形態。也就是說,一旦LLM能夠準確地近似目標系統,便能通過復現嚴格實驗中的可靠觀察,使研究者得以向詢問LLM詢問,以提取關於目標系統的新分子洞察,並識別更廣泛的驅動生物機制。我們警告不要將基於LLM的功能預測模型和分子生物學系統之間視爲嚴格平行,因爲兩者存在顯著差異。儘管如此,在未來,LLMs仍將佔據獨特的位置,有望幫助發現從未在自然界中觀察到的生物活性序列。

用於自動化數據標註的大模型

神經科學研究經常依賴於準確的數據標註來闡述數據、設計實驗或解釋結果。

(1)文字標註

最近一項使用傳統NLP的研究探討了觀看電影《阿甘正傳》的受試者的大腦反應信號與電影故事的發展之間的關係,即電影敘事的語義元素如何與大腦活動相聯繫[33]。這項研究是依賴於數據點相關高質量標註研究的典範。這項研究利用了來自studyforrest*數據庫收集的大腦記錄,每個受試者在觀看2小時電影的過程中,其全腦神經活動的3000張個體圖像被詳細捕獲。

*https://www.studyforrest.org/data.html

爲了使該數據集更豐富,電影中的每一個場景都通過計算生成的元信息得到增強。爲此,文本數據來自之前未充分利用的來源:即與視頻內容同步顯示的時間鎖定字幕,和麪向盲人的僅聽覺敘述版本的電影,後者描述了電影中的事件和場景,展現了NLP支持下的數據增強的初步嘗試。

▷圖5:基於電影文本,使用NLP進行多模態腦-文字數據整合

《阿甘正傳》的逐場景文本信息被一個詞袋模型(bag-of-words)所捕捉——在電影整個播放過程中,該模型會收集每個時間片段內所有獨特詞彙及其出現頻率的集合。然後使用潛在語義分析來將場景詞頻分解爲獨特的語義維度,以捕捉故事線中的潛在意義和反覆出現的主題。

與此同時,通過一種經典的自上而下方法,人類標註者(一羣學生)通過從電影的視聽版本中選擇52個預定義的“指標”來手動爲場景添加標籤。這些選擇基於場景的情感內容、情境和其他方面,基於現有知識,這些方面預先被認爲與電影場景相關。這種經典方法雖然強調了基於人類觀察者的自然主觀體驗對人類情感的詳細刻畫,然而事實上卻錯過了基於文本派生語義表徵中,被很好地反映了的重要細節。這一自動標準的成功,展示了未來LLM方法在自然神經科學中的潛力。

超越手動標註的侷限,NLP方法(如潛在語義分析)使得故事被分解爲200個語義上下文單元,每個單元基於上下文都與特定場景緊密相關。作爲人類衍生情感標註的補充,語義上下文提供了追蹤角色(例如,丹中尉)、情境(例如,戰爭)和場景屬性(例如,白天與夜晚)的方法。通過整合數據分析,揭示了大腦狀態與場景中特定元素、概念和主題之間的經驗聯繫。因此,算法派生的語義方面在電影-大腦-文本分析中,相較於傳統依賴人類先驗直覺確定的那些最重要的方向,展現出了更爲顯著的成功。

LLMs爲將其他學科對人類行爲的知識和概念引入到腦科學研究中提供了前所未有的機會。批量標註生成可以極大地增強我們處理複雜操作協議的能力,如上述研究中使用的圖像和視頻數據,以及許多其他形式的數據,如電子健康記錄、語音記錄或可穿戴設備捕獲的生物測量。

歷史上,這些數據形式的標註需要人類專家的輸入,無論是直接還是間接。現在,通過專門針對特定的從輸入到輸出的端到端工具,例如直接從視覺數據中訓練神經網絡來識別人類情感,或基於物理特性預測氣味化合物吸引力的電子嗅覺設備[34],我們可以更高效地完成這些任務。手動標註通常存在一些問題,LLMs可以緩解其中幾個問題,包括(1)手動操作的高物流和財務成本,(2)用於派生標註標籤的分類系統的本體論限制,(3)人類標註者的主觀性以及基於主觀性的數據,以及(4)可重複性。

最終,如上所述,由於成本高,手動標註的視覺和語言數據集相對罕見且規模較小(10,000-100,000個數據點)。爲了應對先前的標註數據稀缺,許多研究[35-37]已經開始自動從互聯網和其他通用來源抓取現成的配對視覺-文本數據。現在,以在文本-文本標註場景中也實現與圖像-文本標註領域取得的類似成就。在模型預訓練後,LLMs可以自動生成標註,這些預訓練是基於與手頭標註任務相關的各種數據完成。

舉一個例子,一家生物技術公司有興趣爲描述精神活性藥物體驗的一手描述打上標籤,以指示不同的主觀效果;這些描述和手動標註的主觀效果標籤配對,可以用於公司使用的基線模型的微調。或者,像GPT4這樣的LLMs可以在沒有任何額外訓練數據的情況下執行此任務,基於其訓練集提供了足夠的上下文來區分描述不同的主觀效果術語及其示例。

短語和句子,就像單個單詞一樣,可以被自動賦予信息豐富的語義嵌入,這一過程同樣適用於自動(或手動)獲得的標註。通過將自然語言經LLM“編碼器”預處理爲嵌入向量,我們可以對離散的語義元素進行連續的量化。以互補的方式,LLM“解碼器”用於將嵌入轉換回語言文本。將自然語言作爲嵌入進行預處理,爲探索不同語言模式與神經活動之間的相關性開闢了新方法。將自然語言數據與神經測量相關聯,是朝着深刻理解人類大腦產生、感知、處理和解釋語言的一步。自然語言文本的定量表證是計算分析中使用的行業通用中間形式,具有可重複性,可調整和可擴展增強的潛力。語言作爲封裝來自五種人類感官的信息的工具,提供了人類經驗中多樣化現象的量化表徵。

(2)圖像標註

圖像自動標註領域再次啓發了文本標註任務的創新,其中RETfound便是醫學領域從圖像到文本轉換問題的一種創新解決方案[38]。作爲一個基礎模型,RETfound能夠將廣泛可用的視網膜圖像標註爲不同的疾病類別。它旨在加速包括白內障、中心性漿液性視網膜病變、糖尿病視網膜病變、青光眼、心力衰竭、黃斑功能障礙、心肌梗死、帕金森病、中風和黃斑變性等疾病的診斷過程。

模型架構基於大型視覺transformer框架:使用編碼器生成高分辨率的嵌入空間,可以用來區分視網膜圖像特徵,這與LLMs在自然語言文本中編碼語義的方式相似。這種模型的應用展示了LLMs在醫學圖像處理中的潛力,爲醫生提供了一種快速而準確的診斷工具,有助於提高醫療效率和患者護理質量。

RETfound的解碼器用於圖像重建,而編碼器則用於爲下游疾病預測任務提取特徵。RETfound通過自監督學習在160萬張未標記的視網膜圖像上進行了預訓練。在這種範式中,AI模型無需任何額外的訓練信息便可以學習數據集中查找模式。例如,如果一個神經網絡在自監督學習任務中使用寵物圖片作爲訓練集,模型很可能學會識別與貓、狗和其他流行寵物相對應的形狀。模型知道如何區分不同類型寵物的圖像,但它“不知道”我們稱其中一組爲“貓”,以及可能與圖像中的寵物相關的其他信息。RETfound在預微調(pre-fine-tuned) 狀態下也是如此:它可以區分視網膜掃描圖像中看到的不同變異,這種能力使其能夠針對特定疾病檢測任務進行微調。

這種微調是通過來自不同大小數據集的,特定專家提供的標籤進行的。例如,用於標註“正常”、“黃斑變性”和“糖尿病視網膜病變”等條件的“OCTID”數據集,以及包含與353,157名患者在2008至2018年間就診記錄相關的眼科數據的Moorfields Eye Hospital-AlzEye數據集,被用於微調以優化RETfound進行溼性年齡相關性黃斑變性的預後評估。通過這樣的全面訓練,RETfound可以用來根據醫療專業人員生成的圖像記錄中的像素模式創建視網膜圖像的文本描述。因此,像RETfound這樣的模型旨在減輕專家的標註工作量,爲使用LLMs進行類似目的的概念框架提供靈感。

圖像格式的數據一方面可以用來捕捉物理世界,另一方面,也可以捕捉大腦神經元的活動。它們可以作爲實驗變量,例如在視覺刺激實驗中使用的圖片,以探索大腦掃描與這些刺激之間的聯繫。與圖像格式不同,化學結構及其描述可以捕捉大腦化學、神經生理學、神經藥理學和化學感覺刺激的關鍵方面。簡化分子輸入線性輸入系統(SMILES Simplified molecular-input line-entry)是一種將化學結構表示爲基於文本的對象的方法。SMILES最初是基於分子圖的原則構思的,以嚴格規範的方式表示化學結構,非常適合機器處理[40]。

▷圖6:SMILES中配對分子圖的示例

科學文獻中包含了大量的化學名稱,這些名稱有時呈現標準化形式,但並非總是如此。通過適當的收集、整理和整合策略,可以構建一個結合化學名稱和SMILES結構的語料庫,用於訓練大型語言模型(LLM)或微調基礎模型,以探索化學結構與語義內容之間的潛在預測關係。如果能夠實現這一點,進一步地,這個共同的嵌入空間可以連接到一個生成模型,該模型可以根據文本輸入產生化學結構(例如,“我想看到能夠進入人類中樞神經系統的新化學結構”)。在不遠的將來,這樣的多模態LLM可能成爲科學家的寶貴夥伴,增強生成具有目標屬性的全新分子的創造性過程,無論是物理、化學感知還是藥理學屬性。

另一個引人注目的應用是在SMILES(化學品的簡化分子輸入線性表示系統)和自然語言之間建立的共同嵌入空間,這不僅適用於單一化學物質的分析,也能擴展到化學混合物的研究。正如自然語言中詞語和短語的解釋會受到其上下文的顯著影響一樣,化學感知刺激中存在的氣味分子(它們自然以混合物形式出現)的感知,也會受到其他混合物成分的組合和濃度的影響。此外,小分子如神經遞質、激素、藥物和毒素通常與其代謝物、雜質和其他生物分子共同作用。這些組合元素可以在其周圍環境中產生生化和生理效應,例如結合到目標受體或調節信號轉導通路的活性。

我們設想,一個經過SMILES和自然語言訓練的LLM的共同潛在嵌入空間可以用來對化學品和混合物的複雜、依賴於上下文的多重作用進行導航,這對神經科學具有直接相關性。

(3)描述能力

除了高成本之外,標註任務面臨的另一個問題是,依賴於預定本體或分類系統的標註將受到該描述系統的描述能力的限制。通常,執行標註任務的個體必須接受訓練,以確保他們能夠正確利用給定的本體對數據點進行分類,這是減少評分者差異性這一已知挑戰的嘗試。爲了正確進行數據標註,所需的培訓範圍可能非常廣泛,標註者必須是領域專家而非外行人。通過LLM編碼器生成的嵌入,可以通過語義相似度測量或聚類等方法“翻譯”爲目標本體中的一系列術語。

如果不進行翻譯,LLM給出的嵌入提供了基於本體的分類所無法提供的高語義粒度。這種特異性對於任何研究者在記錄與特定實驗直接相關的不同結果時都極爲寶貴,因爲它使得在與特定實驗直接相關的分類方式上具有靈活性。

舉一個簡單的假設性例子,人們可以(1)從通過文本記錄的註釋標籤或其他實驗變量生成語義嵌入,(2)從目標本體中存在的術語生成嵌入,或(3)計算兩組嵌入之間的餘弦距離,以識別每個基於文本的實驗變量與來自目標本體的“最近鄰”術語。雖然這種方法可能無法達到領域專家的準確性水平,但它在分辨率上的不足通過客觀性和操作一致性得到了補償,這提高了大規模註釋的可擴展性和可重複性。另一方面,LLM產生的嵌入也爲研究人員提供了一種通過聚類或更復雜的技術來分析註釋數據集的手段,從而得以識別新的分類系統。

理想情況下,即使在沒有與領域專家緊密合作的情況下,我們很快就能通過LLM進行專家級別的註釋。更有趣的是,一旦證明了LLM能夠以與專家相當或更優的性能應用現有的本體進行註釋,我們就可以轉向“專家LLM”來幫助識別和驗證新術語和本體,這些術語和本體是通過數據驅動的方式得出的。同時,我們還可以藉此機會檢查基於LLM的註釋結果,挑戰那些由有限啓發式設計的傳統分類系統。

基於規則的解決方案雖然依賴明確的預定義標準,但在處理龐大且複雜的數據集時,黑箱式AI解決方案——儘管其決策過程不透明——通常能夠展現出卓越的表現,實現傳統方法難以匹及的預測準確性。將LLM輔助註釋作爲一種補充方法,將其與傳統的自上而下的方法(例如,由領域專家手動分類)和基於規則(例如,預定義算法對數據點分類)的解決方案相結合,是我們可以同時利用專家經驗帶來的知識和LLMs從數據中獲得的新見解的一種方式,這是一種真正能夠“爲自己說話”的數據形式。

LLMs被喻爲變色龍*,具備“角色扮演”的能力[43]。它們可以採取已知人物或具有特定特徵(個性和寫作風格)的人物個性,例如夏洛蒂·勃朗特、卡爾·薩根或神經科學家。這種能力可以以多種方式利用。在某些註釋任務中,與所有評估者都具有相同背景的評估小組相比,徵求跨學科專家小組的意見可能更爲有益。若干個LLM可以並行地在註釋任務中扮演不同的角色,類似於人類評分者的分組。LLMs可以被要求採取不同專家、個性類型、職業、年齡和文化背景的立場來進行思考和評估。LLMs不僅解決了個體主觀性對註釋任務的影響,而且同時能夠表達和操縱這種主觀性。LLMs可以消除人類註釋者所經歷的短暫情感狀態的波動,如果需要,它們可以在可控和可重複的方式中引入這些波動。

*https://karpathy.ai/lexicap/0215-large.html

描述神經科學研究以及主觀體驗的語言存在許多不一致之處。這些差異性助長了不同研究人員之間對註釋解釋的分歧。一致的語義嵌入空間的普遍性能夠捕獲和操縱模糊或主觀的語言。關鍵的是,這些表徵在實驗室或其他研究和分析環境下是完全可重複的;只要對同一任務使用相同的LLM,並使用相同的模型參數集合。從科學研究的實際角度來看,這一特點應該對通過LLMs自動註釋數據集的註釋數據的共享性產生重大影響,有希望擴大LLMs自動註釋數據集的下游應用的廣度和深度。

不同的個體可能會以不同的方式標註相同的數據,甚至同一註釋者在不同時間給出的回答也可能會有所變化。LLMs提供了一種更穩定和一致的標註。由於這些大型模型是基於廣泛的數據集進行訓練,不受個人主觀體驗的影響,它們能夠在捕捉細緻的上下文環境時替代人在手動標註任務中的主觀性。訓練後的LLMs可以被視爲所有互聯網用戶平均思維的一種近似,即“衆包思維”,因爲它們的訓練語料庫的大部分來源於互聯網。如果基礎模型似乎沒有捕捉到足夠的細節以完成特定任務,它可以通過微調來近似基於特定網站或互聯網用戶子集的平均思維。

手動進行數據標註的過程通常包含主觀性元素,特別是當被標註對象基於主觀體驗時在對《阿甘正傳》中的場景進行註釋的任務裡,學生們需要標註他們所感知到的電影中演員表達的情緒。這項任務首先要求對電影中描繪的情感進行主觀解釋,再加上情感體驗本身的高度主觀性。studyforrest數據集還包括每個場景發生的物理位置的註釋。儘管如“夜晚”與“白天”、“室內”與“室外”的標註主要基於具有電影學術背景的兩位領域專家做出的客觀判斷,但在這個過程中仍然留有主觀解釋的空間,例如將“白天”定義爲任何由陽光照亮的場景,而不是其他決定因素一樣。

LLMs能夠在主觀現象和客觀測量的世界之間實現調和。通過LLM嵌入表徵的語義實體,保留了文本中的離散主觀或上下文意義,使其能夠以一致的方式與其他文本進行比較。例如,想象一下從社交媒體帖子中收集的句子,用於自動註釋情感標籤,以便用於訓練一個能夠從用戶帖子中預測情緒的NLP模型。無論每個設想的句子有多麼獨特,它們與“熱情”、“沮喪”、“懷舊”或“平靜”等術語對應嵌入之間的距離都可以用統一的方式計算。由於LLM訓練語料庫捕獲了大量描述主觀現象的文本,LLMs產生的更穩定和一致的註釋,可以輕鬆地用於表徵基於主觀體驗的數據元素,而無需將主觀的人類判斷作爲註釋過程的一部分。

使用LLMs自動化註釋任務並不是漸進式的改進,而是一種革命性的方法升級,可以顛覆主流實踐,有望終結受到主觀性和其他形式的特質所帶來的限制。以註釋一系列日記條目中的情感爲例,如果任務交給一組人類註釋者,一個人可能會根據他們的個人經驗和文化背景將一段文字標記爲“悲傷”,而另一個人可能會看到它爲“反思”或“懷舊”然而,由於LLMs是自迴歸的、狀態依賴的,並且具有溫度等超參數(參見前一節“大型語言模型解決方案的數據科學視角”),它們在處理相同提示時的輸出雖不盡相同,但如果實驗條件保持一致,其答案主要限制在語義空間的一個狹窄區域內。通過這種方式,LLM可能提供人類註釋者無法匹配的客觀性和一致性。

LLM在文本摘要和知識整合中的應用

神經科學這個廣泛的領域涉及從物理學到心理學等多個學科。這個極具跨學科性的領域產生了大量相對獨立的實驗發現,僅靠人力整合這些發現可能會顯得力不從心。此外,該領域的寬廣常常導致研究者在其子領域內孤立工作,專注於狹窄的研究領域,從而可能錯過與其他子學科的交叉融合機會。也可能存在某些任務超出了人類認知能力,包括閱讀包含大量數據點的實驗結果,或提煉過去一年所有主要科學出版物的內容。在這些情況下,LLMs可以幫助研究人員獲取大量文本中的信息,這些文本如果僅靠研究閱讀來吸取其中信息,在短時間內可能會是很具挑戰性的。

LLMs的能力超越了典型的文本摘要任務,其中收集的文本以人類可讀(儘管冗長)的自然語言呈現。但LLM嵌入爲主觀文本提供了客觀的量化,以解決語言歧義並給出標準化的輸出。這些基於主觀性的文本可以是簡單的詞語或短語,如用於捕捉《阿甘正傳》中演員表現的情感[33],或描述氣味或風味化合物的化學感知[44]。它們還可能更爲複雜,就像迷幻研究中使用的文本那樣,描述迷幻藥物及其對大腦和意識影響的研究。

“迷幻體驗”這個常用表達方式暗示了不同體驗之間的一致性。實際上,迷幻體驗充滿了細微差別和變化,部分根源於藥物使用者的心態和環境,部分根源於藥物之間的精神藥理學差異。理解決定迷幻藥物使用者觀察到的細微差別的潛在因素,應該有助於我們瞭解是否可以利用某些藥物或主觀效果的類型來治療特定狀況,就像通過攝取賽洛西賓(psilocybin)和MDMA所提供的不同的體驗在治療強迫症和創傷後應激障礙方面所顯示的早期成功,正是這種探索的實證。

爲了研究這些細微差別,最近的一項研究使用了自然語言處理技術來分析來自迷幻藥物使用者的6,850份“體驗報告”(圖7)。研究的目標是建立主觀體驗、27種不同藥物,以及人類大腦中表達的40種相關神經遞質受體之間的聯繫。這項研究的結果包括通過典型關聯分析(CCA)得出的詳細詞彙列表,該列表按語義維度相關性排名,捕捉了體驗報告中的主要主題。

▷圖7:使用NLP進行多模態受體-文本整合,揭示迷幻藥物體驗的機制基礎分析。

人類解讀由數千個詞以特定順序捕捉的複雜主題相當困難。CCA提供的排名列表中的每個詞都帶有可能被主觀解釋。由相鄰術語提供的上下文以及列表不同子部分(即前1%與前5%)捕獲的一般意義轉變,進一步拓寬了潛在解釋的範圍。儘管結果以密集的高亮詞彙列表呈現,但LLM可以無縫地從這些詞集中抽象出語義核心主題,推導出由迷幻藥物引發的主觀效果的共享高層次類別。這些高層次類別隨後可用於開拓新藥發現平臺,產生關於實驗治療方法的假設,尋找具有針對性主觀效果的新迷幻藥物,以治療特定狀況。未來LLM的應用展示了研究人員從複雜、非結構化數據中獲取洞察的新機遇,尤其是在人類難以單獨應對這些數據的情況下。

面向醫學的LLMs,如Meta的PMC-LLaMA[46],提供了一個有希望的解決方案,用於篩選大量文本來源,綜合其意義和信息價值。通過收集和總結不同來源的信息景觀,這些模型提供了觸及甚至理解了複雜主題的本質。

具體來說,PMC-LLaMA旨在通過訓練龐大的語料庫(480萬篇生物醫學學術論文、3萬本醫學教科書,以及202M個醫學問答對、決策理由和對話)來支持用戶導航廣闊的醫學信息。PMC-LLaMA在零樣本評估醫學知識提示時產生了合理且連貫的迴應,例如,回答患者關於尿路感染的問題,以及關於微生物學和藥理學的深入問題。當被問及涉及結核病和激素避孕藥物相互作用的多項選擇題時,PMC-LLaMA正確指出了藥物相互作用的機制,並詳細闡述了得出答案的理由(通過抗生素利福平誘導CYP3A4,導致激素避孕藥物濃度降低,最終增加了意外懷孕的可能性)。

PMC-LLaMA強調了數據驅動方法在專業領域的有效性以及領域特定模型調整的價值。這種對提示查詢的令人印象深刻的迴應,代表了機器輔助人類智能的場景,其中LLMs可以被定製爲有效地在專業領域教育用戶,突顯了這些模型改造社會的潛力和開發領域特定模型的重要性。

作爲日常生活中另一個具體的例子,準備考試的醫學生可以查詢PMC-LLaMA等模型,獲取特定主題的信息,以更高效的時間覆蓋更廣泛的材料。正如工業自動化釋放了工人,讓他們有更多時間去完成其他任務一樣,我們可以預期LLMs的發展將呈現類似的機會。

然而,並非所有的改進都將僅僅是改善生活;許多應用,如可以訪問患者電子健康記錄的交互式LLM,可能具有挽救生命的潛能。不幸的是,Rodziewicz等人最近的一項統計調查估計,每年約有40萬住院的美國患者經歷某種可預防的傷害,其中大約四分之一的案例導致死亡。在醫學領域,AI的潛在救命作用主要體現在幾個方面:例如(1)減輕醫療專業人員的工作負擔,使他們能夠更有效地評估和治療患者,以及(2)作爲早期預警系統,提醒可能的不良事件。

多來源和多模態語言模型的整合

在過去的幾十年裡,神經科學已經擴展到越來越細分的研究活動領域。例如,阿爾茨海默病(AD)在幾個基本上相互獨立的研究社區中被研究。研究人類羣體中AD病因的流行病學家並不經常與遺傳學家、實驗神經學家、腦成像研究者或動物實驗研究者進行交流。研究與AD相關的全基因組風險變異的遺傳學家,也不一定會參考或整合來自這些其他神經科學社區的現有知識。致力於研究AD大腦結構和功能差異的成像神經科學家,在設計和解釋他們的研究時,也不一定會考慮流行病學人羣分層的方面。每個AD研究社區似乎都在自己的“泡沫”中運作,形成了各自的傑出科學家羣體,自己常討論的假設池,以及自己獨特的知識積累過程,且每年發表着大量的研究成果。

鑑於每年研究產出的不斷增加,單個研究者越來越難以閱讀所有這些論文。神經科學的許多研究活動領域以類似的方式被分割。這種知識碎片化可能是21世紀科學事業面臨的最大挑戰之一。現在,LLMs提供了一個機會,可以整合並翻譯來自單一神經科學主題多個互補視角的日益增長的知識庫。

LLMs也開始針對醫學領域進行定製,如在醫學考試和生成記錄等任務中取得了有希望的結果。迄今爲止,醫學中的AI通常基於計算機視覺,對文本、語音和其他類型信息的整合有限。然而,通過LLMs對各種數據源的總結和整合,爲推進AI輔助醫療專業人員的實踐帶來了巨大的希望。生物傳感器、基因組檔案、醫療記錄、患者自述、代謝數據和其他實驗室檢測,都成爲了構建針對個體患者定製的多模態AI診療路徑的潛在數據源[48]。這種AI解決方案的潛力巨大,因爲它可能對患者的生活和醫療專業人員的表現產生直接影響,,儘管這一目標還未完全實現[49]。

目前,應用LLMs減輕醫療專業人員文檔工作量的可能性也正受到醫學界的廣泛關注。儘管使用LLMs在醫學和醫學研究中的倫理問題開始被討論[50],但現在越來越明顯的是,LLMs可以作爲輔助工具,有效減輕目前佔用大量人力和時間的醫療流程,如電子健康記錄的創建和處理,以及疾病的診斷和預後等多個方面。

作爲下一個聖盃,哪些非文本數據模式可以賦予LLMs行動力?廣義上,LLMs可能是第一個能夠無縫結合結構化和非結構化信息的技術,無論信息的規模多大或是多麼動態。此外,ChatGPT和類似的LLM變體已經成功地將來自多種語言、地理和文化的分散文本源聚合到一個模型實例中,這表明LLMs在多語言文本處理中的強大能力。

LLMs在彌合不同信息類型間差異,尤其是計算機視覺(即圖像)與語言(即文本)之間的差異方面展現出了巨大潛力。機器學習社區的一個近期例子是,Alayrac等人[35]展示瞭如何通過包含額外的模態信息來改進語言模型。Flamingo模型便是在包含文本和圖像信息的互聯網上的大規模多模態語料庫上訓練的,它的小樣本學習能力使其能夠適應包含圖像和視頻材料的各種任務。模型可以根據特定任務的例子進行提示,基於視覺條件的自迴歸文本生成,在許多場景中提供了實際益處。在神經科學領域,一個早期的例子是嘗試使用模型僅從大腦活動測量重建自然圖像的研究[51]。

此外,DALL-E/CLIP(由OpenAI在2021/22年提供)是生成性AI中文本-圖像融合的早期例子,最初該模型基於GPT-3變體開發,旨在從用戶提示生成更真實的圖像。這個多模態融合引擎可以合成各種形式和風格,如逼真的自然圖像、類似繪畫的藝術和符號,以及設計方案的內部模型,調用真實和想象的對象、場景和人物,且無需衆多訓練示例(零樣本學習)。其組件CLIP(對比語言-圖像預訓練)在互聯網上約4億對圖像和文本標題上進行了訓練,用於在DALL-E生成的圖像中選擇最佳輸出。CLIP將計算機視覺和NLP結合在一個單一網絡中,深度處理、分類和生成大量圖像的文本註釋。它不需要嚴格的任務特定訓練,可以將其知識泛化到新的、未曾遇到的任務。

在神經科學背景下,未來的LLM框架可能會潛在地攝取多種形式的“圖像”,如結構和功能MRI腦成像、PET、fNIRS,以及更廣泛的EEG/MEG衍生腦圖像。因此,一個重要的未來研究方向是探索DALL-E/CLIP和類似新興技術,能在多大程度上成功地從自然圖像擴展到包含大腦“圖像”的多模態分析中。

例如,NeuroSynth數據庫展示了一種自下而上的方法[52],它自動提取了超過3,000篇腦成像任務實驗文章的3D圖像空間激活座標,以及這些文章的全文。這一舉措已經通過一個用戶查詢的網絡界面爲神經科學界提供了價值。與之平行的研究是BrainMap[53.54]數據庫,其以自上而下的方式,圍繞心理學類別構建了腦成像實驗的人類本體論。對認知現象的描述系統是由人類領域專家手工設計的。

在這項研究中,同樣也已經嘗試了對圖像描述對進行聚合,可視作訓練或完善最先進的多模態LLMs的一個有吸引力的起點。一個想法是基於兩個數據庫中可用的研究、專家定義和全文註釋相互補充,整合NeuroSynth和BrainMap,可能啓用LLM支持的查詢服務,也許還能跨越兩種類型的大腦圖像元信息進行推理。更廣泛地說,旨在跨越內容類型界限的這些研究方向特別有前景,因爲LLMs提供了一個前所未有的機會,將結構化和非結構化信息融合於一個統一的框架中。

在未來幾年,神經科學家可以系統地研究哪些與大腦相關、適合LLM涌現的功能模式的信息?又哪些類型的神經科學信息可以被標記,以及如何標記?

最近的LLM研究顯示了利用嵌入的氨基酸塊、基因及其mRNA轉錄本、細胞和細胞類型、表型和疾病狀態的潛力。LLMs可能還能處理標記化的大腦區域活動實例、白質纖維通路、大腦結構變化位置、EEG/MEG中的頻率帶變化或鈣成像。

經由這些能力,神經科學家可以將數據集中的序列語義和生物學視角結合起來,形成對大腦的統一視角。這一目標的實現可能需要對模型架構進行創新,以表徵這些信息層。或者,我們可以使用預訓練的LLMs的輸出作爲一種編碼特定信息模式的蒸餾形式,將其整合到隨後訓練的較小模型中,以實現最終的研究目標。具體來說,來自英國生物銀行和其他大型數據集的數據集允許LLM將基因變異信息和其他分子數據與各種人類健康信息關聯起來。

作爲神經科學這一高度跨學科努力的核心願望,LLMs可以幫助我們彌合不同神經科學社區之間的鴻溝,並使我們形成能夠整合多來源知識的NLP模型。

大模型作爲克服當前概念危機的認知紐帶

LLMs可能提供一個替代工具包,該工具對於彙總和編輯神經科學研究者用來解析大腦功能的人類構建概念非常有價值。重要的是要認識到,特別是在經典的假設驅動研究中,整個研究努力都依賴於預先假設的認知和神經術語的有效性,這些術語用於闡述實驗研究條件。然而,許多頻繁使用的心理學或認知術語定義脆弱,無法在自然界中直接觀察到。許多由人類專家確定的神經科學概念可能並不代表“自然分類”,因爲它們並沒有在自然界中劃分出對立獨立的神經迴路。

大多數認知過程的概念在神經科學作爲一個連貫學科出現之前(大約在20世紀中葉)就已經被創造出來,那時大腦功能纔開始被理解。此外,某些行爲或認知概念可能只在健康受試者精心設計的實驗或臨牀條件(如具有局部腦損傷的患者[55])中出現。根據這種觀點,神經認知過程可以在受試者參與特定實驗任務時被分解,作爲揭示大腦與行爲之間映射的途徑。也許現在是時候用一種有規律的數據驅動方法,來測試這些概念的有效性了。

神經科學家在描述大腦現象時遭遇的複雜性,與路德維希·維特根斯坦在其著作《哲學研究》中所提出的觀點緊密相關。維特根斯坦晚年認爲,人類語言本身所帶來的混淆,是許多哲學問題的根本來源。例如,在心理學中,甚至像“認知”和“情感”這樣的簡單詞彙都缺乏一個普遍認同的定義[56-57]。此外,常在心智理論中提及的大腦網絡,即從他人視角進行思考的能力,也始終參與了一系列多樣化的心理過程,包括道德思考、自傳體記憶檢索和空間導航等[58-60]。我們目前遺留的神經認知框架,可能沒有指向正確的方向[61]。

例如,我們爲什麼隱含地期望威廉·詹姆斯的傑作(《心理學原理》,1890年)中的術語和概念,能夠代表大腦中特定的機制?更進一步的是,當我們遇到難以調和的發現時,我們有時會傾向於創造一個新術語,而不是真正深入問題的核心。

許多神經科學研究採取自外而內的方法:他們首先創造概念,然後試圖在大腦活動中找到這些概念的對應或描述[61]。這與一些作者所說的“新顱相學”密切相關, 後者是一種簡化主義方法或“過度定位”,試圖將術語映射到大腦的局部地理區域[62]。雖然現代神經成像顯示,在某些任務中特定的大腦區域確實更活躍,但鑑於大腦的高度互聯性以及多個認知功能的網絡分佈特點,試圖爲複雜的功能找到單一的“定位點”可能極具誤導。

研究重點應該放在大腦的實際反應上,而不是人類發明的術語本身。的確,正是是大腦中的神經認知過程產生了行爲和認知。簡而言之,心理術語如何以及在多大程度上映射到區域大腦反應,仍然是難以捉摸的,反之亦然[62-64]。出於這些原因,一些作者提出神經科學在數據上越來越豐富[65],但在理論上仍然貧乏,指出了迫切需要新的研究假設生成手段。

關於大腦疾病的定義,尤其是精神病學中的術語,也可以提出類似的觀點。相同的概念並不唯一地與相同的機制相關,相同的機制也不經常對應這一個明確的診斷實體。這一認識可能是爲什麼相同的藥物類別經常有助於緩解名義上不同的精神狀況症狀的原因之一。

DSM-5和ICD-10手冊是根據精選專家的意見對精神病進行分類的。此外,資助機構只有在研究人員的提案理由和預期結果堅定地基於這些人類製造的診斷類別時,纔會承諾資助。然而,越來越清楚的是,即使在遺傳水平上[66],基礎生物學中的病理生理過程也具有相當高異質性,且相互存在重疊。因此,當今對精神健康狀況的描述系統雖然有助於實踐醫生之間的交流,但在研究的生物學有效性和臨牀護理的預測性方面,仍然顯得力不從心。

儘管神經科學中現有描述系統存在明顯的不足,但很少有嘗試以自下而上的方式構建這樣一個語義概念系統。在一項開創性研究中,研究人員設計了一個基於數據的方法,來構建神經認知類別的框架[67],該框架彙集了大約20,000篇人類腦成像論文的信息。利用超過25年腦成像研究積累的數據寶庫,NLP算法挖掘了研究文章的語義內容,並將其與來自功能腦掃描(fMRI,PET)的60多萬個拓撲位置相結合。這種方法同時平等關注了語義原則和神經活動原則,允許研究者以整體方法系統地整合大腦和行爲。

此外,這種方法還有助於克服神經科學界長期困擾的一個問題——如何從概念出發推理大腦活動(前向推理)以及如何從大腦活動推斷概念(後向推理)[62]。在實證驗證分析中,這種“計算本體論”被證明比神經科學和精神病學中廣泛接受的描述系統,在重現術語與功能鏈接方面,對新的、未見過的研究成果具有更好的適應性。

▷圖8:NLP工具以完全底層的方式整合現有關於人類認知的概念

綜合來看,我們用來描述世界的敘事和故事塑造了我們設計神經科學實驗和解釋發現的方式。在神經科學中,真正的進步需要對詞語使用、語言衛生(language hygiene)和概念化變體有特別的敏感性。在未來,由LLM賦能的神經科學中,我們可能能夠將心理學固定術語,基於科學證據重新放到新架構中,而不是延續前一個歷史時期的遺留術語。

新興的LLM技術可以激發基於生物學的大腦疾病分類學的,具有重大意義的重新定義,從而跨越診斷邊界,進入一個基於證據的精神醫學新時代,而不是僅僅依賴於特定專家的判斷。正如維特根斯坦所說,“我語言的極限就是我世界的極限。”[68]

結論

在過去的5到10年裡,生物學已經轉變爲一門“可計算”的學科。例如,大規模基因數據庫與定向CRISPR基因編輯和機器學習分析相結合,使生物學更接近於一個工程學科。我們生成生物分子數據的能力遠遠超過了我們從這些系統中真正獲得理解的雄心——正如John Naisbitt所寫[69],今天的神經科學家實際上是“被信息淹沒,卻又渴望着知識”。

LLMs爲研究者提供了新的機遇。這類模型表明,純粹的統計暴力可以幫助研究者通過閱讀和生成生物學來揭開大腦和疾病的神秘面紗,通過構建知識框架,解鎖前所未有的大規模信息整合和研讀模式。基礎模型可能會從神經科學領域中提取、協同和合成知識,跨越孤立的“學科間隔”,這項任務可能會(也可能不會)超越人類的理解範疇。神經科學家需要接受並擁抱這樣一個令人不安的可能性:人類大腦作爲一個生物系統,其複雜性可能超出了人類智能獨立理解的範疇,唯有藉助AI工具處理大數據,我們纔可能理解它。

從更廣泛的社會角度來看,工業革命主要影響了藍領工作。相比之下,當前的LLM革命可能會主要影響白領工作,包括神經科學研究人員的工作。事實上,LLMs的驚人效能已被一些風險投資家和投資者與火的發現、電力的應用或互聯網的誕生相提並論,這些發明都極大地推動了人類社會的進步。LLM是否真就能改變世界,讓我們拭目以待。

參考文獻: