阿里雲開源視頻基礎模型
阿里雲已開源其視頻基礎模型系列,爲企業和研究人員提供視頻創作能力。
通義萬象 (Wan) 2.1 系列包含 140 億和 13 億參數兩個版本的四個模型,專門用於從文本和圖像輸入生成高質量視頻。這些模型可以在阿里雲的 AI 模型社區 Model Scope 和 Hugging Face 平臺上下載。
據阿里雲介紹,Wan 2.1 是首個支持中英文文本效果的視頻生成模型。其生成逼真視覺效果的能力源於對複雜動作的處理、像素質量的提升、物理原理的遵循以及指令執行精度的優化。
這些能力使 Wan 2.1 在視頻生成模型基準測試套件 VBench 排行榜上位居榜首。它也是 Hugging Face 的 VBench 排行榜前五名中唯一的開源模型。
不同的模型可滿足不同的需求和計算資源要求。140 億參數模型在創建具有複雜動態效果的高質量視覺內容方面表現出色,而 13 億參數模型則在生成質量和計算效率之間取得平衡,普通筆記本電腦用戶可以在約 4 分鐘內生成一個 480p 的 5 秒視頻。
訓練視頻基礎模型需要大量計算資源和高質量訓練數據。開源可以降低更多企業利用 AI 的門檻,使他們能夠以具有成本效益的方式創建滿足其需求的高質量視覺內容。
除了 Wan 2.1,阿里雲還開源了其通義千問 (Qwen) 基礎模型,該模型在 HuggingFace 開源大語言模型排行榜上名列前茅,性能可與全球領先模型相媲美。目前,在 Hugging Face 上基於通義千問系列構建的衍生模型超過 10 萬個,使其成爲全球最大的 AI 模型系列之一。
該公司還提供 AI Model Studio,讓大型企業能夠訪問其基礎模型和模型訓練工具,以加快在受控環境中部署大語言模型。
通過 Model Studio,企業可以監控和識別風險內容,基於負責任的 AI 原則過濾或阻止不良信息。他們還可以通過創建、標註和管理訓練數據集來訓練基礎模型,使用可調參數自定義模型訓練,以及輕鬆評估和部署基礎模型。
本週早些時候,阿里雲表示將在未來三年投資 3800 億元人民幣 (約 530 億美元) 用於雲計算和人工智能基礎設施,超過過去十年在雲計算和 AI 方面的總支出。
阿里巴巴雲智能部門在最新一季度報告中顯示,剔除合併子公司後,收入同比增長 11%。得益於其 AI 託管和相關產品的需求增長,其 AI 相關產品收入連續第六個季度實現三位數增長。