面壁智能完成新一輪數億元融資,發佈性能小鋼炮 MiniCPM 第二彈

以小博大的勵志故事不只發生在創業歷史上,也發生在端側大模型上。

今年 2 月份,面壁智能正式發佈了 2B 旗艦端側大模型面壁 MiniCPM,不僅超越了來自「歐洲版 OpenAI」的性能標杆之作,同時整體領先於 Google Gemma 2B 量級,還越級比肩 7B、13B 量級模型,如 Llama2-13B 等。

近日,面壁智能也完成新一輪數億元融資,由春花創投、華爲哈勃領投,北京市人工智能產業投資基金等跟投,知乎作爲戰略股東持續跟投支持,致力於加快推動大模型高效訓練、快步應用落地。

今天端側大模型面壁 MiniCPM 小鋼炮乘勝追擊,迎來了第二彈的四連發,主打的就是「小而強,小而全」。

其中,MiniCPM-V2.0 多模態模型顯著增強了 OCR 能力,刷新開源模型最佳 OCR 表現,通用場景文字比肩 Gemini-Pro、超越全系 13B 量級模型。

在評估大模型幻覺的 Object HalBench 榜單中,MiniCPM-V2.0 與 GPT-4V 的表現幾乎持平。

在綜合 11 個主流評測基準的 OpenCompass 榜單中,MiniCPM-V2.0 多模態模型通用能力以 55.0 的得分越級超越 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B 等量級更大的模型。

在官方給出的演示案例中,當被要求詳細描述同一張圖片的場景時,GPT-4V 給出的回覆出現了 6 處幻覺,而 MiniCPM-V2.0 僅存在 3 處。

此外,MiniCPM-V2.0 還與清華大學展開深度合作,共同探索清華大學博物館鎮館之寶——清華簡。

得益於強悍的多模態識別與推理能力,無論是簡單字「可」的識別還是複雜字「我」的識別,MiniCPM-V2.0 都能輕鬆應對。

在與同類中文標杆多模態大模型的較量中,MiniCPM-V2.0 的識別準確率更是遙遙領先。

精準細節的識別對圖片的清晰度提出更高要求,而傳統大模型通常只能處理 448x448 像素小圖,信息一旦被壓縮,模型便難以讀取。

但這可難不倒 MiniCPM-V2.0,在官方的演示案例中,面對尋常的一張城市街道場景圖片,MiniCPM-V2.0 一眼就能捕捉關鍵信息,甚至連肉眼都未能察覺的「Family Mart」也能被輕易捕捉。

長圖包含了豐富的文本信息,多模態模型識別長圖時往往力不從心 ,但 MiniCPM-V 2.0 卻能穩抓長圖重點信息。

從 448x448 像素,到 180 萬高清大圖,甚至 1:9 極限寬高比(448 * 4032),MiniCPM-V 2.0 都能做到無損識別。

據瞭解,MiniCPM-V 2.0 高清圖像高效編碼的背後其實是用到了獨家技術 LLaVA-UHD。

在中⽂ OCR 能⼒上,MiniCPM-V 2.0 同樣顯著超越 GPT-4V。對比 GPT-4V 的「愛莫能助」,精準識別圖片的它更顯難能可貴。

而這一能力的背後得益於跨模態跨語言泛化技術的加持,其能夠解決中文領域缺乏高質量、大規模多模態數據的挑戰。

長文本處理的能力一直是衡量模型的重要標準。

雖然 128K 長文本能力已經不是什麼新鮮事,但對於只有 2B 的 MiniCPM-2B-128K,這絕對是一件值得誇獎的事情。

最小的 128K 長文本、MiniCPM-2B-128K 長文本模型,將原有的 4K 上下文窗口擴展到了 128K,在 InfiniteBench 榜單超越 Yarn-Mistral-7B-128K 等一衆 7B 量級模型。

通過引入 MoE 架構,新發布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%,超越了全系 7B 量級模型,及 LlaMA234B 等更大模型,而推理成本僅爲 Gemma-7B 的 69.7%。

MiniCPM-1.2B 則證明了「小」和「強」並非魚和熊掌不可兼得。

雖然直接參數減少一半,但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的綜合性能,在多個公開權威測試榜單上,1.2B 模型非常能打,取得了綜合性能超過 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的優異成績。

在 iPhone 15 手機上對 MiniCPM-1.2B 模型的錄屏演示,推理速度提升 38%。達到了每秒 25 token/s,是人說話速度的 15~25 倍,同時內存減少 51.9%,成本下降 60%,實現模型更小,但使用場景卻大大增多了。

在一衆追求大參數模型的征途中,面壁智能選擇了一條與衆不同的技術路徑——儘可能研發體積更小、性能更強的模型。

而面壁 MiniCPM 小鋼炮的出色表現,充分證明了「小」與「強」、「小」與「全」並不是互斥的屬性,而是可以和諧共存的。我們也期待,未來能有更多這樣的模型出現。