☰

羣雄爭霸多模態大模型

21世紀經濟報道記者雷晨北京報道隨着AI技術演進和應用場景的不斷拓寬，多模態交互已經成爲AI應用的重要趨勢之一。

海內外科技企業相繼佈局AI視頻生成賽道。比如，繼今年2月首次發佈Sora後，OpenAI近期正式上線Sora，並向包括美國在內的多數國家用戶開放，用戶可在OpenAI官網上體驗Sora。

國內方面，字節跳動、快手、智譜AI、阿里雲等科技企業紛紛發力視頻生成模型。

與此同時，多模態AIGC市場規模有望持續增長。根據Omdia預測，全球生成式AI市場在未來五年將迎來爆發式增長，預計從2024年的146億美元增長到2029年的728億美元，增長幅度爲五倍。

12月18日，2024火山引擎FORCE原動力大會在上海舉辦，火山引擎總裁譚待在接受21世紀經濟報道等媒體採訪時指出，大模型的商業化潛力巨大，同時，隨着模型能力的提升，能解決的問題越來越多，應用的形態也將發生變化。

談及市場競爭，譚待表示，目前大模型市場仍處於早期階段，因此豆包大模型更關注用戶需求。他認爲，只有通過推出好的模型和合理的價格，才能讓更多用戶使用，進而產生更多反饋和創新。

豆包發佈視覺理解模型

研究顯示，人類接受的信息超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界，同時也會降低人們與大模型交互的門檻，爲大模型解鎖更豐富的應用場景。

12月18日，字節跳動正式發佈豆包視覺理解模型。

譚待表示，聊天功能是很基礎的功能，在工作、教育等各種場景都可能用到，但要加上深度推理、圖像視覺理解等能力，才能處理更復雜的任務，解鎖更多場景。這也是模型發展空間越來越大的前提。

他認爲，豆包視覺理解模型解鎖了一個很大的場景。

“因爲語言是描述世界的，但理解事情首先得靠視覺，就像我們坐在一起聊天，得看到、感覺到事物，再說出信息交互，所以視覺理解對大模型的調用量和場景會有很大幫助。”譚待說。

記者獲悉，當前，豆包視覺理解模型的內容識別能力已經覆蓋圖像知識、動作情緒、位置狀態、中國傳統文化、文字信息、理解和推理能力（圖表、數學、邏輯、代碼等），以及更細膩的視覺描述能力（細節描述、指令遵循、多種文體創作等）。

值得一提的是，豆包視覺理解模型千tokens輸入價格僅爲3釐，一元錢就可處理284張720P的圖片，比行業價格便宜85％，以更低成本推動AI技術普惠和應用發展。

譚待指出，豆包大模型市場份額的增長，得益於火山引擎“更強模型、更低成本、更易落地”的發展理念，讓AI成爲每一家企業都能用得起、用得好的普惠科技。

他還表示，更低成本、更低門檻的多模態交互，能夠在教育、電商、旅遊、門店管理、金融、醫療等領域極大地拓展AI應用的場景和邊界，在各行業加速推動大模型的落地。

大模型高速發展

“今年是大模型高速發展的一年。當你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。通過AI雲原生和豆包大模型家族，火山引擎希望幫助企業做好AI創新，駛向更美好的未來。”譚待說。

今年以來，海內外多家科技企業積極投入資源押注視頻生成產品，持續研發和迭代相關產品。

比如，相較於今年2月份首次發佈的版本，OpenAI在12月10日上線的Sora新增Storyboard、Remix、Re-cut等功能，視頻再創作能力大幅提升，還優化了視頻生成速度及生成方式。

國內公司也緊隨其後，紛紛發力AI視頻生成產品。

6月，快手發佈可靈AI視頻生成大模型，其主要功能包括文生視頻、圖生視頻、視頻續寫等，可生成長達2分鐘、分辨率達1080P的視頻。

7月，智譜AI上線視頻生成產品智譜清影，並且在11月進行全新升級，支持生成時長爲10秒的4K超高清視頻。智譜清影還引入CogSound模型，可爲生成的視頻添加背景音樂。

8月，字節跳動推出即夢AI一站式創作平臺，11月宣佈即夢AI兩大視頻模型S2.0Pro和P2.0Pro正式全量上線。

記者獲悉，近日，字節跳動視頻生成模型PixelDance已在豆包電腦版正式開啓內測，部分用戶已開通體驗入口。內測頁面顯示，用戶每日可免費生成10個視頻。

PixelDance視頻生成模型於9月底首次發佈，最早通過即夢AI、火山引擎面向創作者和企業客戶小範圍邀測，外部對其多鏡頭組合、運鏡切換及人物運動能力評價較好。

據早期內測創作者介紹，當PixelDance生成10秒視頻時，切換鏡頭3~5次的效果最佳，場景和角色能保持很好的一致性。通過小幅度、漸進式的提示詞描述，PixelDance能生成魔術般的特效。此外，用戶還可使用時序提示詞、長鏡頭等技巧，增強視頻的複雜度和表現力，對劇情創作非常友好。

目前，基於該模型的視頻生成能力已在豆包電腦版陸續開放。豆包相關負責人表示，未來仍將持續開放和優化該功能，更好地幫助普通用戶創作和表達。

行業應用落地加速

當前，大模型正在向各行各業加速滲透。

以豆包大模型爲例，它已經與八成主流汽車品牌合作，並接入到多家品牌的手機、PC等智能終端，覆蓋終端設備約3億臺，來自智能終端的豆包大模型調用量在近半年時間內增長100倍。

數據顯示，截至12月中旬，豆包通用模型的日均tokens使用量已超過4萬億，較七個月前首次發佈時增長了33倍。

在企業端的實踐中，最近3個月，豆包大模型在信息處理場景的調用量增長了39倍，客服與銷售場景增長16倍，硬件終端場景增長13倍，AI工具場景增長9倍，學習教育等場景也有增長。

“大模型本身在很多場景，特別是生產力場景裡面會非常‘大’。這些場景與生產力性能、商業場景相關，增速並不比聊天類場景慢，現在呈現多元化發展。”譚待表示。

商業化方面，Omdia報告指出，生成式AI已經在各行各業得到廣泛應用，尤其是在開源和專有大型語言模型（LLM）的推動下，生成式AI已經覆蓋了120個行業應用場景。

根據中國互聯網絡信息中心（CNNIC）發佈的《生成式人工智能應用發展報告〔2024〕》，截至2024年6月，我國生成式人工智能產品的用戶規模已達到2.3億人，佔整體人口的16.4%。

相關資訊