北大袁粒:用戶不會爲只能閒聊的大模型買單 | 中國AIGC產業峰會
大模型能力與日俱增,如何將其轉化爲生產力?
中國AIGC產業峰會上,北京大學深圳研究生院助理教授袁粒給出了他的看法:
袁粒專注於多模態深度學習研究方向,一作論文單篇被引用千餘次。
屢屢登上熱搜的ChatExcel、ChatLaw等垂直領域產品,都是出自他的團隊。最近,由他們發起的Sora復現計劃“OpenSora”,更是引發了廣泛關注。
爲了完整體現袁粒的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啓發。
中國AIGC產業峰會是由量子位主辦的行業峰會,20位產業代表與會討論。線下參會觀衆近千人,線上直播觀衆300萬,獲得了主流媒體的廣泛關注與報道。
以下爲袁粒演講全文:
我今天主要是來講講我們在多模態模型垂域上面的應用,主要是我們自己團隊的工作。
首先引用浙大趙(俊博)老師的拷問,你會爲一個閒聊的玩具買單嗎,這是當Chat系列模型出來後,大家都會思考的。
同時在去年5、6月份,ChatGPT用戶量出現了微跌,也就是說如果大家只是爲了一個聊天去用一個產品,肯定是不夠的,需要實實在在的轉化成生產力,生產力由什麼轉化,就是垂域應用。
我們知道後來OpenAI動作很快,推出了GPT store,也就是GPT的商店。
我認爲GPT商場中的每一個應用,就是一個垂域的產品。我們的團隊也是做了一些多模態垂域的開發,包括ChatExcel、ChatLaw,既有語言生成應用,也有視覺生成的一些模型。
我們的基礎平臺是基於鵬城的雲腦加上我們自建的算力,以及通用和行業的數據來進行應用的開發的。
我們先來簡單看看一些代表性工作。
第一個就是數據垂域的應用ChatExcel,它其實是早於微軟的Copilot發佈的,在2022年下半年開始研發,23年2月發佈。
一開始的想法很簡單,是2022年下半年的時候,我的一個博士生告訴我,他說老師,我想給女朋友減負。
因爲他的女朋友是一個高校的信息老師,天天要處理很多表格,大家也知道企業有很多“表哥、表姐”。所以當時我覺得這個想法很好,背後代表了大家普遍的需求,所以就出來了ChatExcel。
ChatExcel是從傳統到生成式路線,而且會比生成式路線再往前推了一步,就是多模態生成。
我們看看在第一版的時候,線上能體現到這邊這一部分,用文字直接操縱表格,其實WPS當前也已經能做這到一步,因爲我們從2022年下半年到2023年初發布。
當然在這個之後,我們進行了升級,升級成一個多模態的模型,這個視頻放一下,這也是我們目前部署給某奢侈品巨頭的一個真正落地的case,大家可以看到已經不是單模態,能進行數據的可視化,以及能進行一些營銷的處理,包括幫你分析這個產品哪一個明星來代言會更好。
我們ChatExcel孵化了一家企業,這個是我的學生創業做的一件事情,我也很支持他。如果大家感興趣可以在互聯網上搜到。
第二個應用是ChatLaw,ChatLaw是中文法律垂域應用。
ChatLaw這個應用的動機很簡單,就是在食堂和一個法學院的老師吃飯的時候,他說我們北大的法律比清華還是好的,但是法律科技在那個時候沒有擁抱大模型,我們是否能做一些法律上面的東西。
所以我們一起合作做出來這個ChatLaw的模型。
其實這個很簡單,思路就是用戶提出需求,我們用Agent進行模型的調度、處理,最後提供法律助手服務,包括信息的分析、結構化抽取,同時能夠爲用戶包括律師生成一些大家所熟知的訴訟狀,一些文本的文件,這個是可以給普通用戶,同時也可以幫律師。
當然我們目標從來不是替換律師,而是成爲律師的助手,替換一些底層重複性的工作。
我們可以看看一些簡單的能力,有人被裁員之後去問我的模型,我的模型會讓他上傳合同和HR溝通錄音,然後給他分析事實,最後給出建議。
基於這個建議,我們告知他其實被裁員之後可以走勞動仲裁,仲裁流程以及勞動仲裁申請書都可以由ChatLaw生成,還會推薦一些類似的案例和判決結果。
同時我自己的學生,以及我個人,也有從這個模型中受益,這是當時ChatLaw內測的時候,我的學生身上發生的真實案例。
我的學生想買一個車,在4S店試駕,結果就遇到了一個法律問題。
一般情況下,在試駕的時候需要籤一份“免責協議”,大概內容是如果開着這個車出了交通事故,責任完全由試駕人員承擔,4S店則不承擔責任。
但是很不幸,我這個學生把車開回4S店的時候,在視覺盲區中和一輛電動車發生了刮蹭。
當時我的學生被4S店告知,要麼把這個車買下來,要麼在完成定損之後全額賠償。
當時ChatLaw正好在內測,我的學生就問了模型,我的模型最後給他的答案是,4S店的“免責協議”違背了《侵權責任法》第42條(現《民法典·侵權責任編》第1203條)的規定。
同時,ChatLaw也給這個學生生成了一份調解建議書,闡明瞭因爲這個產品歸屬於4S店,所以這個“協議”屬於霸王條款。
於是,這名學生拿着法律依據以及生成的文書給4S店,然後4S店對這件事情就沒有再過問了,不了了之了。
雖然我的學生最後買的也是這款車,但沒有在這家4S店。
這就是法律真正在普惠個人,包括我個人在現在生活當中一些小問題,也會問模型,因爲很多時候它確實有效。
當然,大家也許會說,通用模型本身也能回答大家的這些法律問題。
但是通用模型有一個問題——在專業領域,最大的問題是幻覺問題,俗稱“一本正經地胡說八道”。
大家知道如果問ChatGPT,“林黛玉倒拔垂楊柳”是怎麼回事,ChatGPT會把這個過程說得非常清晰生動,甚至最後林黛玉的性格都能分析出來,說是《紅樓夢》某一回的,這種問題非常嚴重。
去年上半年我們開發垂域模型的時候就知道,垂域模型必須要解決幻覺問題,所以我們當時提出來,現在大家都很熟知這個詞叫檢索增強生成。
那個時候確實是我們首次做出來的,只是我們沒有把這個概念提出來,讓大模型做大模型的事情,讓檢索做檢索的事情。
當然這套框架,大家感興趣可以讀論文,我們也開源了一部分模型,但是商業版比開源模型更好。
其實簡單說就是用檢索的方式在數據庫裡面提取出一個參考信息,讓這個檢索參考信息抑制或者緩解模型的幻覺,尤其是發動“緊急立法權”編造法律條文這種重大問題。
這也是通用模型和垂域模型一個重要的差異,尤其在法律這種嚴肅的場景下一定要考慮這個問題。
做完垂域應用的時候,當然大家可能說,一個高校團隊好像做的事好多,確實,爲什麼?
因爲我們在高校裡面,不是追求必然的商業化,而是做有意思的科研和有意思的事情。
我最後介紹的一個東西是聯合實驗室最近的一項工作,叫做Open-Sora Plan,Sora的開源計劃。
我剛開始發起這個計劃的時候,很多人問說爲什麼叫復現,不叫超越。
我說我們還是要實事求是,我們離國外的大模型還是有一定差距,我們能把它復現出來,尤其我們作爲高校團隊,在算力和數據資源都有限的情況下,我們能復現出一版tiny Sora已經不錯了。
而且我們這個是開源項目,我們選用的是MIT license,同時所有的人都可以無條件的用我們開源的數據和模型。
當然我們大家知道,在大語言模型ChatGPT出來的時候,其實還沒有開源的模型,整個商業界或者整個產業界和學術界都比較難受——學術界沒有研究對象,商業的生態也沒有繁榮。
所以後來有了Meta的Llama,我們這個開源的目標就是能否做出一版視覺版的Llama。
這個事情爲什麼想在高校做,因爲高校的姿態是中立,所有人都可以受益,我們拿的是納稅人的錢,做的事情繁榮了生態,也就沒有浪費他們的錢。
所以我們想做這件事情。
於是我們很快把這套框架搭起來了,這個框架分爲三個部分——視頻編解碼器、Diffusion Transformer,以及條件注入。
我們把這個框架搭起來之後扔給開源世界,整個開源世界,尤其在推特上面發佈之後,對此是很支持的。
我們最看重是技術社區的評價,因爲它纔是大家真正從技術角度考慮的結果。我們也很快在GitHub上登了第一,目前Star超過 10K。我們這個特點是什麼?
我覺得Sora這條技術路線的優勢是能生成長時視頻,原因之一是因爲在訓練的時候,餵給了它很長的視頻片段。
所以裡面核心模塊之一是第一部分Video VAE,就是視頻編解碼,需要對視頻進行壓縮,因爲無法將一個1分鐘的視頻直接放在一個80G顯存的顯卡。
所以我們在Video VAE做了很多工作,目前Video VAE能夠對視頻進行壓縮,而且壓縮完之後能重建保持高清晰度。
我們現在能夠把1分鐘1080P的視頻塞進80G的顯卡,如果是半分鐘720P的視頻,我們能塞4個。
我個人認爲,視頻重建就是視頻生成的上限。如果無法壓縮重建一個視頻,也就無法生成。
我們現在能夠對視頻進行256倍的壓縮,而且信噪比能保持30以上,信噪比越高,表示重建信號越好。
而且重建視頻的同時也能夠重建圖像。我們現在開源的版本是能夠壓縮256位的視頻,當然下一步目標是壓縮512位,大家可以用我們的CausalVideoVAE進行視頻壓縮。
我們也進行了數據收集,有兩類方案。
一個是爬取視頻數據,因爲是文生視頻,需要打文本的標籤。
但是這個很受限於標註模型的準確度,會受限於現在用的多模態理解模型,所以文本和視頻的對齊度不高。
方案二也是用文本驅動物理引擎,比如遊戲引擎去合成數據,這樣的話文本和視頻的對齊度和細粒度會非常高。
而且我們也是剛剛打通了這套數據收集方式,用文本的Prompt驅動遊戲畫面,讓人物做出特定動作。
這種合成數據有個好處,就是對齊度高,收集速度也快很多,因爲不需要打標,只需要構造很好的文本Prompt,驅動物理引擎。
大家知道Sora裡面有很多case的場景很像物理引擎生成的,我個人認爲就是這樣的數據的功勞,所以我們現在也把這條路剛剛打通。
關於模型收斂情況,我們在上週發佈了第一版預訓練模型,坦率講離Sora差距很大,不過我們僅僅用了一個實驗室,用很少的算力預訓練。
從我們生成的一些Demo來看,包括麪包被烤熟、種子發芽這種質變場景,都比較符合物理規律,這個是Sora模型的核心。
視頻生成的長度則是幾秒鐘到十秒鐘。
當然,還可以建模遊戲裡面的一些場景,比如讓它生成“我的世界”中建造房子的過程。
我們也有我們三階段的復現目標,第一階段已經完成了,就是1.0的版本,現在已經公開。
大家都可以用,包括壓縮工具CausalVideoVAE也可以,不需要我們的商業授權,因爲這就是開源的事情。
我們現在在第二階段,該階段目標也是開源項目的最終目標,我們希望訓練出的模型可以生成20秒以上、720P清晰度的視頻。
開源世界對我們支持了很多,比如我們合作伙伴,也是聯合發起方兔展智能,爲我們提供了百卡H100和H800的算力,進行第二階段開源項目的研發。
華爲昇騰團隊也和我們積極合作,爲我們提供了算力支持。
同時我們也承諾,第二階段仍然開源。
當然在第三階段,是超越開源項目的目標,這個是在座各位以及工業界能有更多的算力和更多數據,讓它更接近Sora,尤其是在泛化性和時長上。
最後,我個人覺得AI發展到今天,開源世界的貢獻功不可沒。
大家知道的ImageNet數據集是開源的,很多的深度學習模型也都是開源的,所以才推動了這個領域的繁榮。
所以這個事情的意義是比較大的,學術界和產業界都有一個可以用的類Sora架構的模型。
好,我的演講到這,謝謝大家。