對標Sora 這家清華系多模態大模型企業再獲億元融資 啓明創投、百度都投了

《科創板日報》3月12日訊(記者 張洋洋) 清華系大模型公司又融資了,這次是一家對標Sora的多模態企業。

今日,北京生數科技有限公司(下稱“生數科技”)宣佈完成新一輪數億元融資,本次融資由啓明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續跟投,華興資本擔任獨家財務顧問。本輪資金將主要用於多模態基礎大模型的迭代研發、應用產品創新及市場拓展。

生數科技成立於2023年3月,師出清華大學朱軍團隊,是國內最早佈局多模態大模型的團隊之一,由瑞萊智慧RealAI、螞蟻集團和BV百度風投聯合孵化,公司業務聚焦於圖像、3D、視頻等原生多模態大模型的研發。

▍近期重點突破長視頻生成能力

與這一波絕大多數大模型初創企業類似,生數科技也出自清華大學,其核心團隊來自清華大學人工智能研究院,公司CEO唐家渝曾任騰訊優圖實驗室高級產品經理和瑞萊智慧RealAI副總裁,先後負責瑞萊智慧產品團隊、AI安全產研團隊及業務。

生數科技首席科學家朱軍,爲清華大學人工智能研究院副院長,也是清華智能技術與系統國家重點實驗室主任和智源人工智能研究院的首席科學家。此外,團隊成員還包括來自北京大學和阿里巴巴、騰訊、字節跳動等公司的多位技術人才。

去年6月,生數科技已完成近億元融資,當時由螞蟻集團領投,BV百度風投、卓源資本跟投,那一輪融資時,生數科技估值已達1億美元。兩個月後,生數科技再度獲得由錦秋基金獨家投資的數千萬元天使+輪融資。

在商業模式上,生數科技CEO唐家渝告訴《科創板日報》記者,公司是模型層和應用層兩條路走路,自研產業級的可控多模態通用大模型和垂直應用產品,現在已初步完成商業化驗證。

一方面構建覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型,以API的形式面向B端機構提供模型服務能力。

另一方面面向圖像生成、3D生成、視頻生成等場景打造垂類應用,按照訂閱等形式收費,在應用場景上,生數科技將主要面向概念設計、遊戲製作、影視後期等內容創作場景。

產品研發進度上,截至去年9月,生數科技推出了基於統一的多模態多任務框架的產業級通用基礎大模型(閉源版),同時也於去年上線兩款工具產品:視覺創意設計平臺PixWeaver、3D資產創建工具VoxCraft。

唐家渝表示,目前公司已與多家遊戲公司、個人終端廠商、互聯網平臺等B端機構開展合作,開放模型服務,提供AIGC個性化體驗、定製化內容生產等方面的能力。

對於接下來的規劃,唐家渝告訴《科創板日報》記者,堅持“原生多模態”方向,基礎模型層面會持續優化,不斷提升語義理解、可控性、美觀度方面的生成效果,近期則將重點突破長視頻生成能力。

在產品端,現有產品將持續迭代,不斷滿足用戶需求,實現用戶量的持續增長,同時公司也正在探索工具以外的全新產品形態,致力於提升每個人的創造力和生產力。

▍對標Sora

從行業發展趨勢來看,從Sora的驚豔亮相到最強文生圖模型Stable Diffusion 3的推出,多模態的趨勢已成爲AI行業共識。儘管Sora領先如此,但因技術的阻礙,其也還沒實現公開應用。

從技術角度來看,唐家渝告訴《科創板日報》記者,文生視頻難度在於,長視頻的時空信息怎麼有效的表示,怎麼有效地去壓縮視頻數據,學到一個嵌入的表示,然後在上面再去做擴散、生成。以及一些關鍵幀的運動,如何保持住在長時間序列下畫面元素的連貫性和一致性等等。

簡單理解就是,在訓練側,怎麼把長視頻進行無損壓縮餵給模型,讓模型學習理解裡面的信息;在推理側,本質上視頻生成是先生成完整視頻的壓縮表示,然後再通過解碼器恢復出整段視頻,需要保證幀與幀之間畫面的連貫一致,而在長視頻中,保持前後的一致性難度更大。

唐家渝表示,Sora出現之後,基於transformer的Diffusion路線目前看是最優的也是最清晰的,但是也不排除後面會出現更好的架構,生數科技背靠清華的實驗室團隊,也一直探索和關注着新的架構。

在文生圖、文生3D模型、文生視等領域,生數科技此前已有研究成果和商業產品對外釋出。Sora模型的推出和爆火,生數科技內部已將其作爲對標對象。

上一輪ChatGPT熱潮中,市場均在討論國內大模型和ChatGPT的差距,同樣的問題,如今也在Sora身上覆現。

在唐家渝看來,國內和Sora的差距是小於語言模型和GPT-4差距的,“我們本身就推測了今年視頻生成會迎來爆發,但Sora的出現確實比我們預期早了近半年”。

從研發能力的角度來看,唐家渝表示,美國具備一定的領先性,但中國在該領域並非完全從零開始的階段,清華大學朱軍教授帶領的課題組早在2023年1月提出基於Transformer的多模態擴散大模型UniDiffuser,首個採用了基於transformer的網絡架構U-ViT,該架構與Sora的架構路線完全一致,但區別在於UniDiffuser主要應用於圖像生成任務,但可以以此爲基礎進行視頻任務的拓展。