無限光年漆遠:AI大模型在行業落地需要更加可信
21世紀經濟報道記者 閆啓 北京報道
人工智能大模型正在催生新一輪技術創新與產業變革,給各行各業數字化轉型和高質量發展帶來新動能。在大模型技術持續快速迭代的同時,大模型在具體行業中的應用並不盡如人意。通用大模型通識能力強但缺少行業專業知識,要用一個通用的大模型來直接滿足各行各業的特定需求,在當下依然難以實現。如何將大模型融入千行百業,是下一階段的發展重點。
復旦大學浩清特聘教授、上海科學智能研究院院長、無限光年創始人漆遠表示:“大模型就好比是同時在多個領域的通才,但在實際的應用場景中,我並不需要一個在各個領域都是博士水平的通才,只需要在特定一個領域能夠實現解決問題的‘偏才’,足以推動生產力的發展。”
在經歷“百模大戰”後,模型的行業應用已成爲大模型的發展重心。但在深入專業化場景時,當前通用大模型的表現並不理想,尤其是幻覺問題是大模型被用作生產力工具面臨的核心挑戰之一,如果大模型生成的內容不可控、難以解釋,就很難滿足專業領域對準確性、可靠性、嚴謹性的要求。
漆遠早期曾在普渡大學任教,2014年回國後參與創立了達摩院的前身——iDST,之後他出任螞蟻集團副總裁、首席數據科學家,創建並帶領螞蟻金服人工智能團隊。2021年,漆遠重返學界加盟復旦大學,受聘爲“復旦-浩清”特聘教授、復旦人工智能創新與產業研究院院長。2022年,漆遠成立無限光年,研發新一代可信的灰盒大模型技術,致力於讓垂直領域大模型更精準、更可信。無限光年已完成多輪融資,投資人包括阿里雲、啓明創投等頭部投資機構。
大模型規模卷不動了
目前,業界對大模型並沒有形成明確統一的定義,狹義上指基於Transformer 技術框架的大語言模型,廣義上則包含多模態大模型,學界將這些模型稱爲基礎模型(FM, Foundation Model)。傳統模型參數量通常在數萬至數億之間,兒大模型的參數量則至少在億級,並已發展到過萬億級的規模。如 OpenA1 的 GPT-1到GPT-3,參數量從 1.1 億大幅拉昇到 1750 億,GPT-4 非官方估計約達1.8萬億。
大模型能夠有效處理多種未見過的數據或新任務。基於注意力機制 (Attention)通過在大規模、 多樣化的無標註數據集上進行預訓練,大模型能夠學習掌握豐富的通用知識和方法,從而在廣泛的場景和任務中使用,例如文本生成、自然語言理解、翻譯、數學推導、邏輯推理和多輪對話等。
模型的性能與模型的規模、數據集大小和訓練用的計算量之間存在冪律關係,性能會隨着這三個因素的指數增加而線性提高,也就是所謂的規模定律(Scaling Laws),但隨着Scaling Laws驅動通用大模型性能不斷提升,大模型在泛化性、專業性和經濟性三方面難以兼得的不可能三角。
漆遠指出,當大模型規模越來越大之後,面臨非常大的挑戰。首先是通用大模型以發展通識能力爲主要目標、更側重泛化性,在專業性和經濟性方面很難充分滿足具體行業的特定需求,商業落地是一個難題。第二,基礎模型的研發成本隨着參數規模的上升也急劇上升,有數據顯示2017 年 Transformer 模型訓練成本約爲 900 美元,2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓練成本預計分別約爲 7800 萬美元和 1.91 億美元。第三,大模型會產生 “遺忘性災難”,在訓練的過程中本來某一方面性能很好,但隨着對其他能力的訓練這方面能力反而會下降。
垂直行業模型是當前AI落地關鍵,可信性值得關注
漆遠認爲,通用大模型可以在100個場景中,解決70%~80%的問題,但未必能100%滿足企業某個場景的需求。但在實際的應用場景中,往往不需要一個大而全的模型,當大模型作爲提升生產力的工具時,關心的是在應用場景中能真正發揮多少作用。
相比參數規模動輒萬億的大模型,十億~百億級參數量的大模型通過相對低成本的再訓練或精調已經能達到較好的性能效果。漆遠對此形象地解釋說,“大模型就好比是同時在多個領域的通才,要把一個人在各個領域都培養成博士的難度之大可想而知,但如果把一個人只在一個特定的領域培養成博士,其他領域達到高中水平就很容易實現,這就足以在一個行業中投入使用真正推動生產力的發展,同時對訓練成本的要求也沒有那麼高。因此,行業垂直大模型對於當下是非常重要的”。
行業大模型是發揮我國在 Al 領域應用場景優勢的重要載體,但其安全和治理問題可能也更復雜,不僅面臨通用大模型的共性問題,諸如可解釋性、網絡安全、價值對齊等,也會面臨特定行業的特殊監管要求,如醫療、金融、交通、教育等強監管行業內存在的強制性標準等。
漆遠強調,大模型也會一本正經“胡說八道”,就是所謂的“大模型幻覺”。無限光年聯合創始人徐盈輝也表示,“如果大模型生成的內容不可控、難以解釋,就很難滿足專業領域對準確性、可靠性、嚴謹性的要求。針對該挑戰,無限光年致力於研發神經符號計算等多種創新技術,並在此基礎上打造新一代可信大模型。”
據瞭解,無限光年的可信光語大模型結合了大語言模型與符號推理,能夠有效解決幻覺問題,大幅增強模型可信度,賦能金融服務、醫療診斷等垂直領域。在金融和醫療垂直領域評測中,可信光語大模型超越OpenAI的萬億參數大模型GPT4-Turbo,同時作爲“精專”的百億規模大模型,有效提升推理精度,降低服務成本。通過解決模型幻覺問題對企業級應用的重大挑戰,無限光年深入金融、醫療場景,目前已服務多家頭部公司和機構。