羣雄爭霸多模態大模型

21世紀經濟報道記者雷晨 北京報道隨着AI技術演進和應用場景的不斷拓寬,多模態交互已經成爲AI應用的重要趨勢之一。

海內外科技企業相繼佈局AI視頻生成賽道。比如,繼今年2月首次發佈Sora後,OpenAI近期正式上線Sora,並向包括美國在內的多數國家用戶開放,用戶可在OpenAI官網上體驗Sora。

國內方面,字節跳動、快手、智譜AI、阿里雲等科技企業紛紛發力視頻生成模型。

與此同時,多模態AIGC市場規模有望持續增長。根據Omdia預測,全球生成式AI市場在未來五年將迎來爆發式增長,預計從2024年的146億美元增長到2029年的728億美元,增長幅度爲五倍。

12月18日,2024火山引擎FORCE原動力大會在上海舉辦,火山引擎總裁譚待在接受21世紀經濟報道等媒體採訪時指出,大模型的商業化潛力巨大,同時,隨着模型能力的提升,能解決的問題越來越多,應用的形態也將發生變化。

談及市場競爭,譚待表示,目前大模型市場仍處於早期階段,因此豆包大模型更關注用戶需求。他認爲,只有通過推出好的模型和合理的價格,才能讓更多用戶使用,進而產生更多反饋和創新。

豆包發佈視覺理解模型

研究顯示,人類接受的信息超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界,同時也會降低人們與大模型交互的門檻,爲大模型解鎖更豐富的應用場景。

12月18日,字節跳動正式發佈豆包視覺理解模型。

譚待表示,聊天功能是很基礎的功能,在工作、教育等各種場景都可能用到,但要加上深度推理、圖像視覺理解等能力,才能處理更復雜的任務,解鎖更多場景。這也是模型發展空間越來越大的前提。

他認爲,豆包視覺理解模型解鎖了一個很大的場景。

“因爲語言是描述世界的,但理解事情首先得靠視覺,就像我們坐在一起聊天,得看到、感覺到事物,再說出信息交互,所以視覺理解對大模型的調用量和場景會有很大幫助。”譚待說。

記者獲悉,當前,豆包視覺理解模型的內容識別能力已經覆蓋圖像知識、動作情緒、位置狀態、中國傳統文化、文字信息、理解和推理能力(圖表、數學、邏輯、代碼等),以及更細膩的視覺描述能力(細節描述、指令遵循、多種文體創作等)。

值得一提的是,豆包視覺理解模型千tokens輸入價格僅爲3釐,一元錢就可處理284張720P的圖片,比行業價格便宜85%,以更低成本推動AI技術普惠和應用發展。

譚待指出,豆包大模型市場份額的增長,得益於火山引擎“更強模型、更低成本、更易落地”的發展理念,讓AI成爲每一家企業都能用得起、用得好的普惠科技。

他還表示,更低成本、更低門檻的多模態交互,能夠在教育、電商、旅遊、門店管理、金融、醫療等領域極大地拓展AI應用的場景和邊界,在各行業加速推動大模型的落地。

大模型高速發展

“今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過AI雲原生和豆包大模型家族,火山引擎希望幫助企業做好AI創新,駛向更美好的未來。”譚待說。

今年以來,海內外多家科技企業積極投入資源押注視頻生成產品,持續研發和迭代相關產品。

比如,相較於今年2月份首次發佈的版本,OpenAI在12月10日上線的Sora新增Storyboard、Remix、Re-cut等功能,視頻再創作能力大幅提升,還優化了視頻生成速度及生成方式。

國內公司也緊隨其後,紛紛發力AI視頻生成產品。

6月,快手發佈可靈AI視頻生成大模型,其主要功能包括文生視頻、圖生視頻、視頻續寫等,可生成長達2分鐘、分辨率達1080P的視頻。

7月,智譜AI上線視頻生成產品智譜清影,並且在11月進行全新升級,支持生成時長爲10秒的4K超高清視頻。智譜清影還引入CogSound模型,可爲生成的視頻添加背景音樂。

8月,字節跳動推出即夢AI一站式創作平臺,11月宣佈即夢AI兩大視頻模型S2.0Pro和P2.0Pro正式全量上線。

記者獲悉,近日,字節跳動視頻生成模型PixelDance已在豆包電腦版正式開啓內測,部分用戶已開通體驗入口。內測頁面顯示,用戶每日可免費生成10個視頻。

PixelDance視頻生成模型於9月底首次發佈,最早通過即夢AI、火山引擎面向創作者和企業客戶小範圍邀測,外部對其多鏡頭組合、運鏡切換及人物運動能力評價較好。

據早期內測創作者介紹,當PixelDance生成10秒視頻時,切換鏡頭3~5次的效果最佳,場景和角色能保持很好的一致性。通過小幅度、漸進式的提示詞描述,PixelDance能生成魔術般的特效。此外,用戶還可使用時序提示詞、長鏡頭等技巧,增強視頻的複雜度和表現力,對劇情創作非常友好。

目前,基於該模型的視頻生成能力已在豆包電腦版陸續開放。豆包相關負責人表示,未來仍將持續開放和優化該功能,更好地幫助普通用戶創作和表達。

行業應用落地加速

當前,大模型正在向各行各業加速滲透。

以豆包大模型爲例,它已經與八成主流汽車品牌合作,並接入到多家品牌的手機、PC等智能終端,覆蓋終端設備約3億臺,來自智能終端的豆包大模型調用量在近半年時間內增長100倍。

數據顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發佈時增長了33倍。

在企業端的實踐中,最近3個月,豆包大模型在信息處理場景的調用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學習教育等場景也有增長。

“大模型本身在很多場景,特別是生產力場景裡面會非常‘大’。這些場景與生產力性能、商業場景相關,增速並不比聊天類場景慢,現在呈現多元化發展。”譚待表示。

商業化方面,Omdia報告指出,生成式AI已經在各行各業得到廣泛應用,尤其是在開源和專有大型語言模型(LLM)的推動下,生成式AI已經覆蓋了120個行業應用場景。

根據中國互聯網絡信息中心(CNNIC)發佈的《生成式人工智能應用發展報告〔2024〕》,截至2024年6月,我國生成式人工智能產品的用戶規模已達到2.3億人,佔整體人口的16.4%。