權威榜單登頂國內第一,階躍星辰Step-2是如何煉成的
平時不聲不響,一出街就炸場
作者 | 甘德
國際權威榜單 LiveBench 官網近日發佈了一份最新的模型能力榜單。階躍星辰自研的萬億參數語言大模型 Step-2 在榜單中位列國產基座大模型第一,成績逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型,是唯一進入榜單前十名的中國語言大模型,位列全球第五。
雖然大模型的評測榜單已經氾濫,但 LiveBench 卻是實打實的大有來頭。
LiveBench 是由圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)聯合 Abacus.AI、紐約大學等機構推出的大模型測評基準。LiveBench 從包括數學、推理、編程、語言理解、指令遵循和數據分析在內的多個複雜維度對模型進行評估。之所以名字裡有個「live」,就是因爲這個榜單採用了新穎的數據來源並保持每月更新,這杜絕了大模型通過預訓練和微調作弊的可能性。LiveBench 也被行業內譽爲「世界上第一個不可玩弄的 LLM 基準測試」,官網上明晃晃地寫着「A Challenging,Contamination-Free LLM Benchmark」。
簡單來說,經常對着當今由 OpenAI 引領的大模型技術路線一通抨擊的楊立昆牽頭做了一個對刷榜行爲異常警覺的大模型評測基準——而就是這樣一個十分嚴苛的榜單,Step-2 在其中 IF Average(Instruction Following,指令遵從)一項中拿到了第一。
根據評測基準 LiveBench 的論文中敘述,測評團隊在 IF Average 測試中爲模型提供了一篇來自《衛報》的文章,要求模型遵循多個隨機抽取的指令,同時要求模型完成與文章相關的四個任務之一:釋義、簡化、故事生成和總結。然後根據任務對指令的遵守情況來評分。評測結果是 Step-2 拿到了 86.57 的平均分,gemini-1.5-flash-002 得到了 84.55,在這兩個唯二超過 80 分的模型之後,meta-llama-3.1-70b-instruct-turbo 以 79.08 緊隨其後,而以推理能力見長的 o1-preview-2024-09-12 得到了 77.72 分。
從 LiveBench 的測試結果看,目前 Step-2 在指令遵從的能力上力壓了當今所有國內外語言大模型。
01
強勁的 Step-2 萬億參數模型
說 Step-2「異軍突起」或許並不準確。
階躍星辰在今年 3 月發佈了 Step-2 語言大模型預覽版,是當時國內首個由創業公司發佈的萬億參數大模型。此後的幾個月內,階躍星辰快速迭代 Step-2,在 2024 年 WAIC(世界人工智能大會)期間對外發布了這款模型的正式版,彼時 Step-2 在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面體感已經全面逼近 GPT-4。目前,階躍星辰 C 端智能助手「躍問」已經接入了 Step-2 語言大模型,在躍問 App 和躍問網頁端皆可體驗。
但以成長速度來說,Step-2 用四個月追到與 GPT-4 幾乎身位平行,又用了 4 個月完成對 Gemini-1.5 和 GPT-o1 部分能力的反超,步子邁的確實很快。
但這也並不讓人太過意外,由於特殊的 MoE 架構,Step-2 從最初就被視爲極富成長性的「高潛力」基礎模型。
在大規模語言模型(LLM)的發展過程中,Mixture of Experts(MoE)架構因其獨特的優勢受到越來越多的關注。這種架構通過選擇性地激活部分專家網絡,在提升模型性能的同時保持了較高的計算效率。而目前訓練 MoE 模型主要存在兩種策略:一種是基於已有模型的 upcycle(向上複用)訓練,另一種則是從頭開始訓練。
Upcycle 訓練是一種利用現有模型進行訓練的方法。它的優勢在於對計算資源的需求較低,訓練效率高。因爲可以複用已有的模型參數,訓練過程更快。這種方法適合在資源有限的情況下快速開發和驗證模型。然而,upcycle 訓練的缺點是模型的性能上限較低。由於基於已有模型的拷貝,專家網絡可能會出現同質化問題,即多個專家學習到相似的特徵,限制了模型的多樣性和最終性能。
相比之下,完全從零構建和訓練 MoE 模型,面臨着更高的訓練難度和更大的資源投入,但同時能夠帶來更高的模型性能上限。這種方法允許開發者設計更爲複雜和多樣化的專家網絡,使得每個專家網絡都能夠學習到更加獨特和專門化的特徵。同時也提供了更大的靈活性,開發者可以根據具體需求對模型架構進行精細的調整和優化。
市面上所謂的 MoE 大部分是前者,而階躍星辰團隊在設計 Step-2 MoE 架構時候選擇了後者。
這也意味着 Step-2 每次訓練或推理所激活的參數量都超過了市面上的大部分 Dense 模型。也讓 Step-2 有了另一個更讓外界印象深刻的標籤——萬億參數模型。而往往更大參數的語言模型意味着更好的交付效果,特別是在指令遵循、內容創作和語義理解層面。
02
躍遷式進化的階躍星辰
階躍星辰的名字來自於「階躍函數」。
階躍函數(Step Function)是一種分段常數函數,其特徵是在某些特定點上發生突變,即函數值在這些點上會突然從一個常數值跳躍到另一個常數值。這種函數通常用於描述系統中某種瞬時的變化或狀態的切換。
在神經網絡中,階躍函數可以用作激活函數,幫助模型在輸入達到某個閾值時激活輸出。這種激活過程可以視爲一種超線性增長,因爲輸出在某個點上突然變得顯著。
階躍星辰也帶着相似的某種躍遷和超線性的感覺,這家大模型初創公司沒有喧鬧的天性,每次回到公衆的視線內都意味着有了重大的能力提升。
除了語言大模型 Step-2,階躍星辰也很早就在 Step 系列通用大模型家族中展開了多模態方面的探索。在 2024 年 3 月,階躍星辰推出了千億參數的多模態大模型的第一個版本 Step-1V,在 7 月的 WAIC 期間,階躍星辰一口氣連發三款 Step 系列通用大模型新品。除了 Step-2 萬億參數語言大模型正式版之外,也包括 Step-1V 的迭代版本 Step-1.5V 多模態理解大模型,以及 Step-1X 圖像生成大模型。
半年時間,階躍星辰從萬億參數的語言大模型出發,迅速完成了語言模型和多模態模型的齊頭並進。
在 Step-2 萬億參數大模型的加持下,Step-1.5V 多模態模型在圖像感知和理解能力上全面提升,並具備出色的視頻理解能力。它能準確地識別視頻中的物體、人物和環境,並理解視頻的整體氛圍與人物情緒。除此之外,Step-1.5V 有着非常可觀的推理能力,能根據圖像內容進行解答數學題、編寫代碼、創作詩歌等高級推理任務。基於這款模型,階躍星辰還在 C 端智能助手「躍問」上線了智能視覺搜索功能「拍照問」,用戶可以即拍即問,比如拍美食圖計算卡路里、拍場景學習英文單詞等等。
如果說 Step-1.5V 的發佈,標誌了階躍星辰在極短的時間內實現了從圖像理解到視頻理解的跨模態升級,那麼新發布的 Step-1X 圖像生成大模型,則代表了階躍星辰在推動多模態理解和生成一致性的技術路線上也有了重要進展。
Step-1X 採用全鏈路自研的 DiT(Diffusion Models with transformer)模型架構,支持 600M、2B、8B 三種不同的參數量,能夠滿足不同場景的需求。並且 Step-1X 具備強大的語義對齊和指令跟隨能力,還針對中國元素和文化進行了深度優化,更具中國風格。這也是 Step-1X 區別於其他模型的重要特色。
除了在基座模型層面佈局全面、快速迭代之外,階躍星辰在產品化上步伐同樣迅速:智能助手「躍問」和 AI 開放世界平臺「冒泡鴨」,是階躍星辰面向 C 端用戶推出的兩款產品。
基於 Step 系列通用大模型的強大能力,「躍問」能準確地描述和理解圖像中的文字、數據、圖表等信息,不僅能出色地完成內容創作、邏輯推理、數據分析等任務,也能滿足人們在生活場景中的各種需求,比如可以拍圖介紹文物古蹟背後的歷史知識、幫忙制訂旅遊攻略、輔助健康管理等等。
「冒泡鴨」則打造了一個全新的 AI 開放世界。在這裡,用戶可以探索故事、創作角色,沉浸屬於自己的開放世界。
目前 AI 應用普遍面臨用戶使用門檻偏高的問題,階躍星辰也在通過一系列產品創新,讓 AI 應用獲得更多普世化場景,能夠真正爲每個人解決問題。近期,「躍問」將智能視覺搜索功能「拍照問」接入了 iPhone 16 新發布的相機控制按鈕,支持用戶一鍵調用智能問答搜索。是國內首個將大模型能力接入 iPhone 16 的大模型廠商,在多模態能力與硬件的結合上邁出了引人注目的一步。
在階躍星辰 CEO 姜大昕看來,模型和應用的關係猶如「靈魂與皮囊」,兩者的深度綁定纔是實現技術極致的關鍵,應當形成一種協同進化的關係。應用將抽象的模型能力投射進現實,而模型能力最終決定着一切的上限。
近幾個月,OpenAI 發佈的 o1 一定程度上印證了大模型此前並未受到足夠重視的技術方向,也就是強化學習以及強化學習所帶來的在推理和規劃能力上的突出表現。而在階躍星辰最初「模擬世界、探索世界和歸納世界」的 AGI 發展路線圖中,世界模型和強化學習就在確定要攻克的版圖上。
現在大模型技術曲線從陡坡放緩的大背景下,無論是模型多模態的能力、殺手級 AI 產品的出現,或者對強化學習訓練更好地運用,諸多亟待突破的地方,希望又比以往任何時候都更明確的落在基礎模型的能力上。
Step-2 和整個 Step 系列模型,或許就是那個階躍星辰撬動世界的支點。
*頭圖來源:視覺中國
本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO
極客一問
你對階躍星辰的大模型有哪些期待?
馬斯克:年輕人正是冒險的年紀,大膽做一定不會後悔。
點贊關注極客公園視頻號,