對話MiniMax創始人閆俊傑:打不贏,就應該被淘汰

出品|本站科技《態度AGI》對話欄目

作者|丁廣勝 宗淑賢

在MiniMax成立以來的第一場媒體見面會,創始人閆俊傑分享了基於MOE(混合專家模型)+ Linear Attention(線性注意力)的新一代模型技術的應用,並展示了MiniMax最新音樂模型、視頻模型的研發成果。

最爲引人關注的是,MiniMax發佈了一支名爲《魔法硬幣》的2分鐘視頻。其所有場景畫面全部由大模型生成,沒有進行任何人類加工,效果驚豔。

本片所有場景均由Minimax大模型生成,未經任何修改(來源:逆向思維)

“科學技術是第一生產力,這是MiniMax堅持技術創新的最底層原因。”閆俊傑說,MiniMax將持續通過技術突破推動AI加速發展,拓展人類智慧的邊界,真正實現Intelligence with Everyone。

據介紹,作爲中國首個研發MoE大語言模型併成功上線的AI企業,MiniMax持續在模型算法上做創新,並最新推出基於MOE+ Linear Attention的新一代模型技術。通過此新型線性模型架構,MiniMax大模型能在單位時間內更加高效地訓練海量數據,極大地提升了模型的實用性和響應速度。

在與GPT-4o同一代模型能力對比上,新一代模型處理10萬token時效率可提升2-3倍,並且隨着長度越長,提升越明顯。相比於通用Transformer架構,新架構的原生線性計算複雜度大幅減少了大模型的訓練和推理成本。在128K的序列長度下,新架構成本減少90%以上。

視頻模型方面,MiniMax宣佈推出視頻模型。MiniMax視頻模型具有壓縮率高、文本響應好和風格多樣等優點,可生成原生高分辨率、高幀率視頻,模型能力首屈一指。

音樂模型方面,MiniMax第一款音樂模型可以合成純音樂爲製作人快速構建歌曲的基本結構,由歌手自由演繹主唱或和聲部分。沒有伴奏,音樂模型也可以是實力歌手。MiniMax語音模型同樣迎來更新,已實現對粵語、日語、韓語、西班牙語等多語種支持的升級。

目前,MiniMax音樂生成模型與視頻生成模型已經在開放平臺和海螺AI網頁版上線。此外,abab 7系列模型將於未來數週內發佈。

“很多時候不是我們的技術在幫助用戶,更多的是用戶在幫助我們。”閆俊傑認爲,有了多元化用戶的參與和反饋,纔有更好的智能。

據披露,MiniMax每日與全球用戶進行超30億次交互,處理超3萬億文本token、2000萬張圖片和7萬小時語音,大模型日處理交互量排名國內AI公司首位。

面對市場壓力,閆俊傑坦言:“如果我們在競爭中打不贏,就應該被淘汰,沒有其他選擇。”他認爲,MiniMax能做的就是將我們覺得有可能變強的事無限地放大,包括兩點:

一是技術如何提升,二是如何跟用戶做更好的共創。

以下爲閆俊傑與本站科技等媒體對話實錄(經調整):

問:您眼中的AGI是什麼樣的?

閆俊傑:我們認爲的AGI可能不是一個很高大上的東西。當大家覺得不是AI的時候,而是變成大家每天都在用的一部分,我覺得AGI就實現了。

問:MiniMax爲什麼要做視頻生成?

閆俊傑:本質原因是我們每天看的大部分內容,都不是文字,都是一些動態的東西。在人類社會,大模型的核心意義是做更好的信息處理。大部分的信息體現在多模態的內容裡面,而不繫體現在文字上,只是文字很多時候是裡面最精華的那麼一小部分。

爲了能夠有非常高的用戶覆蓋度和非常高的使用深度,能夠輸出動態的內容是唯一的辦法,這是一個非常核心的判斷。只是在之前的時候我們先做出來文字,又做出來的聲音,其實很早做出來了圖片,只是現在技術變得更強,把視頻也做出來。這個路線是一以貫之的,一定要能夠做多模態。

這裡面的挑戰在於,之前基於文本建的這套底層的基礎設施怎麼來處理數據,怎麼來清洗數據,怎麼來標註,對視頻上都不太適用。意味着基礎設施也需要升級。再次是耐心,做文字有很多開源的東西,如果基於開源來做自己研發會更快,如果做視頻開源的東西沒那麼多,做出來其實很多東西越來越需要重新來做,需要付出的耐心也更大。

問:數據來源在哪?

閆俊傑:中國有比較好的措施。國家層面有很多政策出來,以政府組織的形式,有很多非常高質量的數據開放給技術公司使用。這些數據完全沒有版權的問題,對創業公司幫助非常大。

我們自己也會採購第三方的數據。我們儘可能地用符合版權的數據,我們儘可能往這個方向努力。

問:視頻生成,怎麼考慮商業變現?

閆俊傑:商業化基本分兩個形式,一個是我們的開放平臺,現在已經有30000家企業客戶和開發者,這是To B部分。第二,產品廣告機制.

我覺得目前階段,最重要的東西還不是商業化,是真正地讓技術到達廣泛可用的程度。

問:如何看待陪伴類AI的前景?

閆俊傑:星野這樣的產品底層設計其實不是陪伴用戶聊天,底層設計實際上是一個內容社區。一些用戶可以根據創造的世界觀進行互動,很類似像小說的交互體驗,核心是內容社區,核心不是陪一個人來聊天。我們認爲內容社區產品的特點是,數據主要是用戶的創作。

問:最近快手有推出飛船。國內還比較卷,怎麼把自身的壁壘提升?

閆俊傑:這個事除了快手有,字節也有。像電動車、手機、移動互聯網,這些行業都是有好幾家公司進行了長期非常激烈的競爭,最終使得中國的產品全球都領先了。

我們作爲一家小的創業公司來說,如果在競爭中打不贏,那我們就應該被淘汰,其實也沒有其他的選擇。這在一定程度上讓我們開始意識到,當你有很多大廠的競爭對手,可以讓我們很快地看清一些非常底層的東西。

我們能做的就是把我們覺得有可能變強的事無限地放大,兩點:一是技術如何提升,二是如何跟用戶做更好的共創。

問:目前智能體或虛擬的角色很難去對用戶進行深度的聊天和陪伴,會導致用戶的流失,如何應對這樣的問題?

閆俊傑:本質上就是模型不夠好,在當前的模型沒有很長的記憶,理解不了特別複雜的指令就會這樣。這也是我們爲什麼堅持技術創新,讓我們的模型的理解能力變得更強,能夠處理無限長的輸入跟輸出,裡面有更多的模態,這裡面也包括更多的創作者的激勵。

這件事需要一步一步演化,不是一蹴而就。我們看一下10年前的B站跟現在的B站顯然不太一樣。

問:最近朱嘯虎有一個觀點,大模型六小龍最佳的歸宿可能是被大廠併購。

閆俊傑:這個事可以當成是對一個行業的考驗,如果能夠通過就能夠出來,如果通不過確實應該關掉,這個事就應該客觀地面對,這肯定不能怪用戶,也不能怪生態,只能怪自己做得不夠好,至少我們目前是在努力的,這是我唯一可以做的一件事。

問:您怎麼理解現在行業技術進步的速度,我們可以從什麼角度去衡量?

閆俊傑:我自己還是很堅定的,實際上兩個月前我就知道今天可以更新視頻模型,實驗結果已經能夠預測了。

對語言模型也是一樣的,一個核心的標誌可能不是說GPT4,或者是GPT-4o,或者GPT-4o mini這種東西。真正的變革是什麼時間點有一個模型可以把錯誤率降低到個位數,這會是一個非常本質的變化。

我的判斷是,如果Scaling law是對的話,(更好的)模型一定會出現,標誌就是錯誤率走向個位數,就只是不知道什麼原因還沒有人把它真正地發佈出來。

問:現在商業化整體的表現如何?

閆俊傑:我們不是上市公司,沒法披露我們具體的經營數據。

可以談談變化,我們非常驚人地發現在有了大模型價格戰之後,有很多非常傳統的企業開始非常願意使用大模型。國內大模型的使用量確實在顯著地增長,並且中國的模型在海外確實越來越具有競爭力,我覺得是兩個積極的變化。

關於《態度AGI》

本站科技重磅推出系列對話欄目《態度AGI》。過去三年,AI變革風起雲涌,全球科技秩序正在重構,通往AGI的道路或許正在悄然臨近。本欄目以AGI爲題,將對話100位AI專家、企業家、投資人,試圖撥開雲霧,與大家一道見證AGI時代的到來。第十四期對話MiniMax創始人閆俊傑。

往期回顧:

《態度AGI》第一期:對話李開復:大模型創業狂奔一年 中美差距縮小 我十年不套現

《態度AGI》第二期:對話王小川:我們不跟進大模型價格戰

《態度AGI》第三期:對話戴文淵:大模型價格戰不解決核心問題

《態度AGI》第四期:智源研究院院長王仲遠:GPT4不是國內大模型的盡頭

《態度AGI》第五期:對話朱嘯虎:5年後將沒有獨立的大模型公司存在,因爲沒有商業模式

《態度AGI》第六期:對話梅花創投吳世春:“中國大模型五虎”想要跑出來非常難

《態度AGI》第七期:對話躍然創新CEO李勇:做大模型應用 如何和巨頭錯位競爭

《態度AGI》第八期:對話智譜AI CEO張鵬:視頻生成是AGI必經之路,超級App將在“不知不覺”中到來

《態度AGI》第九期:對話科大訊飛副總裁、研究院院長劉聰:中國大模型已從追趕對標走向自主原創

《態度AGI》第十期:對話360周鴻禕:魔法對付魔法,大模型安全問題得靠大模型

《態度AGI》第十一期:對話彩雲科技CEO袁行遠:超越ChatGPT,需要打開“黑盒”

《態度AGI》第十二期:對話傅盛:不看好雙足機器人商業化,三五年都沒戲

《態度AGI》第十三期:對話宇樹創始人兼CEO王興興:通用機器人的iPhone時刻還需要3-4年