絕學回響 | 人工智能與金文研究展望
金文在古文字材料中佔有十分重要的地位,其年代從商代延續至秦漢,時間跨越千年之久。其他古文字材料,如甲骨文主要存在於商代和西周早期,簡帛材料主要集中於戰國秦漢時期,都不如金文時間跨度長。同時,金文內容豐富,是研究先秦歷史和古代文化的第一手材料。鑑於其重要性,對金文進行深入研究並充分挖掘其史料價值是十分必要的。隨着新興科技的出現,結合人工智能技術開展金文研究,不但可以提高研究者的效率,同時也有利於金文的普及化和大衆化。
金文材料有其特殊性,而人工智能也具備了學習、分析、總結的能力,學者可將兩者相結合,針對金文的特點,利用人工智能中信息檢索、計算機視覺、自然語言處理等技術,實現合理的智能算法,進而輔助專家去解決金文領域中的學術難題。本文試着討論金文與人工智能交叉研究的幾個方向,其中金文形體識別方面我們已有另文詳論,此處不再贅述,下面主要討論其他方面。
知識圖譜與金文研究
知識圖譜本質上是一種知識網絡,用於揭示事物之間的關係,可以將原本無結構的知識組織成有機的知識系統。知識圖譜能夠支持知識的提取、融合、管理等各個方面,應用十分廣泛。針對金文材料,可以構建一個集金文字形、詞義、辭例於一體的知識圖譜,將金文的相關知識融合成一個整體,爲學者研究提供便利。目前,學界已有研究者正在開展此項工作。
除了金文自身外,知識圖譜還可以連接金文與傳世文獻。金文資料是地下出土的商周文獻,它與傳世典籍關係密切,部分內容兩者可相互印證,這有助於古史的研究。如利簋銘文記載了武王克商的史實,與傳世文獻所記相合;子犯編鐘銘文記載的戰爭,與傳世典籍記錄的晉楚城濮之戰可相互對應,而且還能彌補典籍記載之不足。所以,將出土金文與傳世文獻結合起來進行研究是十分必要的,2023年出版的李學勤先生《金文與西周文獻合證》一書便是此類典範。
儘管金文具有重要的史料價值,但藉助金文研究古史是存在“門檻”的:一方面研究者需要熟悉金文形體,瞭解金文的內容;另一方面,還需具備紮實的文獻功底,能夠將傳世文獻與金文結合起來。面對這種情況,可以考慮使用知識圖譜將金文中出現的人物、地點以及歷史事件與傳世文獻當中的史料相互聯繫。這一工作將會有力地提高研究效率。
自然語言處理與金文研究
目前,利用人工智能技術研究金文的成果主要是使用計算機視覺模型來處理單字圖片,完成字形識別或圖像降噪等任務。自然語言處理是人工智能的一個重要分支,將自然語言處理模型與金文文本結合起來進行研究目前還是一片藍海。其主要難點首先在於,金文文本中存在着大量的異體字、通假字和未釋字,而且文本中有很多寫法僅在古文字中出現,現有的漢字編碼體系根本沒有收錄,需要古文字研究者自己手動造字、手動編碼。其次,人工智能領域流行的自然語言處理模型基本都是基於深度學習的,對數據量要求較高,而金文作爲出土文獻,數據量相對較小,實現起來有諸多不便。此處所言及的數據量較小,指的是和其他常見種類的海量數據相比,實際上金文無論是篇目還是篇幅都達到了一定的量級。學界目前已經公佈的金文數量約2萬件。至於銘文長度,雖說以短篇爲主,但也不乏長銘,如毛公鼎銘接近500字,大盂鼎、散氏盤等銘文也達300字左右。在對現有模型進行適當調整的情況下,可以採用基於深度學習的自然語言處理模型開展研究工作。而且,商周金文的語言習慣屬於先秦古代漢語,可以藉助大量的先秦典籍來進行輔助訓練,從而彌補出土文獻數據有限的缺點。整體上看,這一領域的研究有着廣闊的前景。例如,著名人工智能企業DeepMind與威尼斯大學人文系、哈佛大學希臘研究中心、牛津大學古典學院和雅典經濟與商業大學信息學系合作共同推出了名爲伊薩卡(Ithaca)的深度學習模型。該模型可以自動處理希臘文文本,從而推測受損希臘銘文以及書寫位置。該模型推測受損缺失銘文的準確率爲62%,受過7年學習和訓練的希臘歷史以及希臘語專業的研究生預測準確率爲25%,但是在該模型的輔助下可以將準確率提升到72%。該成果在2022年以封面文章形式發表在權威科學期刊 Nature上。中國商周金文由於年代久遠,銘文也常出現破損缺失、模糊的情況,也可以用類似的模型推測殘缺或未釋字形。除此之外,藉助自然語言處理方法還可完成金文分詞、斷句、文本分類等諸多有意義的工作。
通用大語言模型與金文研究
大語言模型是一種基於深度學習的超大型人工智能模型,它可以通過分析大量的文本數據,學習人類的語法、語言和知識,從而實現與人類語言交流以及完成文檔總結、語言翻譯、程序編寫等多項任務。ChatGPT誕生後,大語言模型成爲當前的研究熱點。在學術圈內,大語言模型也受到廣泛的關注。目前,已經有越來越多的科研工作者嘗試使用大語言模型來助力自己的學習、研究工作。但經過測試可知,已有的各大公司發佈的通用大語言模型回答金文領域專業問題的結果並不理想,往往會給出錯誤的信息,無法滿足研究者的需求。原因在於,一般大語言模型的訓練量爲10TB左右的文本數據。包括金文在內的古文字專業常被稱作冷門絕學,在互聯網上金文數據極少,甚至幾乎可以忽略不計,這就導致可用的金文數據極爲匱乏。大語言模型的另外一個特點是數據量越多,出現越頻繁,學習效果就越好,而且模型傾向於忽視那些較少出現的稀有數據。這些原因共同導致現有的通用大語言模型在金文領域的“知識匱乏”,生成的大部分都是些似是而非的籠統答案。隨着大語言模型使用的推廣和普及,一定會有越來越多的金文愛好者或使用者需要藉助大語言模型來學習、研究金文。因此,提升大語言模型在金文研究領域的能力是十分必要的。OpenAI訓練ChatGPT的經驗表明,通過數量少但質量高的數據對大語言模型進行微調,可以顯著提升大語言模型的表現能力。未來可以藉助金文專家人工整理的高質量數據,微調現有的通用大語言模型,使之精通金文。另一種方法是給大語言模型外接一個包含金文領域專業數據的知識圖譜,這同樣可以彌補大語言模型在金文領域知識表現不足的問題。
包括金文在內的古文字學雖然屬於小衆學科,相關的研究人員並不多,但古文字學本身的價值極大,對探索中國古代文明、研究中華優秀傳統文化有着重要作用。人工智能技術可以減輕研究人員的工作量、提升研究者的工作效率,也能更好地向公衆普及古文字的知識,從而推動古文字學的發展。
(本文系國家社科基金項目“基於金文資料的中國先秦語言文化研究”(23VRC033)階段性成果)
(作者系吉林大學考古學院、古文字古文物人工智能重點實驗室教授)