☰

面壁智能完成新一輪數億元融資，發佈性能小鋼炮 MiniCPM 第二彈

以小博大的勵志故事不只發生在創業歷史上，也發生在端側大模型上。

今年 2 月份，面壁智能正式發佈了 2B 旗艦端側大模型面壁 MiniCPM，不僅超越了來自「歐洲版 OpenAI」的性能標杆之作，同時整體領先於 Google Gemma 2B 量級，還越級比肩 7B、13B 量級模型，如 Llama2-13B 等。

近日，面壁智能也完成新一輪數億元融資，由春花創投、華爲哈勃領投，北京市人工智能產業投資基金等跟投，知乎作爲戰略股東持續跟投支持，致力於加快推動大模型高效訓練、快步應用落地。

今天端側大模型面壁 MiniCPM 小鋼炮乘勝追擊，迎來了第二彈的四連發，主打的就是「小而強，小而全」。

其中，MiniCPM-V2.0 多模態模型顯著增強了 OCR 能力，刷新開源模型最佳 OCR 表現，通用場景文字比肩 Gemini-Pro、超越全系 13B 量級模型。

在評估大模型幻覺的 Object HalBench 榜單中，MiniCPM-V2.0 與 GPT-4V 的表現幾乎持平。

在綜合 11 個主流評測基準的 OpenCompass 榜單中，MiniCPM-V2.0 多模態模型通用能力以 55.0 的得分越級超越 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B 等量級更大的模型。

在官方給出的演示案例中，當被要求詳細描述同一張圖片的場景時，GPT-4V 給出的回覆出現了 6 處幻覺，而 MiniCPM-V2.0 僅存在 3 處。

此外，MiniCPM-V2.0 還與清華大學展開深度合作，共同探索清華大學博物館鎮館之寶——清華簡。

得益於強悍的多模態識別與推理能力，無論是簡單字「可」的識別還是複雜字「我」的識別，MiniCPM-V2.0 都能輕鬆應對。

在與同類中文標杆多模態大模型的較量中，MiniCPM-V2.0 的識別準確率更是遙遙領先。

精準細節的識別對圖片的清晰度提出更高要求，而傳統大模型通常只能處理 448x448 像素小圖，信息一旦被壓縮，模型便難以讀取。

但這可難不倒 MiniCPM-V2.0，在官方的演示案例中，面對尋常的一張城市街道場景圖片，MiniCPM-V2.0 一眼就能捕捉關鍵信息，甚至連肉眼都未能察覺的「Family Mart」也能被輕易捕捉。

長圖包含了豐富的文本信息，多模態模型識別長圖時往往力不從心，但 MiniCPM-V 2.0 卻能穩抓長圖重點信息。

從 448x448 像素，到 180 萬高清大圖，甚至 1:9 極限寬高比（448 * 4032），MiniCPM-V 2.0 都能做到無損識別。

據瞭解，MiniCPM-V 2.0 高清圖像高效編碼的背後其實是用到了獨家技術 LLaVA-UHD。

在中⽂ OCR 能⼒上，MiniCPM-V 2.0 同樣顯著超越 GPT-4V。對比 GPT-4V 的「愛莫能助」，精準識別圖片的它更顯難能可貴。

而這一能力的背後得益於跨模態跨語言泛化技術的加持，其能夠解決中文領域缺乏高質量、大規模多模態數據的挑戰。

長文本處理的能力一直是衡量模型的重要標準。

雖然 128K 長文本能力已經不是什麼新鮮事，但對於只有 2B 的 MiniCPM-2B-128K，這絕對是一件值得誇獎的事情。

最小的 128K 長文本、MiniCPM-2B-128K 長文本模型，將原有的 4K 上下文窗口擴展到了 128K，在 InfiniteBench 榜單超越 Yarn-Mistral-7B-128K 等一衆 7B 量級模型。

通過引入 MoE 架構，新發布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%，超越了全系 7B 量級模型，及 LlaMA234B 等更大模型，而推理成本僅爲 Gemma-7B 的 69.7%。

MiniCPM-1.2B 則證明了「小」和「強」並非魚和熊掌不可兼得。

雖然直接參數減少一半，但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的綜合性能，在多個公開權威測試榜單上，1.2B 模型非常能打，取得了綜合性能超過 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的優異成績。

在 iPhone 15 手機上對 MiniCPM-1.2B 模型的錄屏演示，推理速度提升 38%。達到了每秒 25 token/s，是人說話速度的 15~25 倍，同時內存減少 51.9%，成本下降 60%，實現模型更小，但使用場景卻大大增多了。

在一衆追求大參數模型的征途中，面壁智能選擇了一條與衆不同的技術路徑——儘可能研發體積更小、性能更強的模型。

而面壁 MiniCPM 小鋼炮的出色表現，充分證明了「小」與「強」、「小」與「全」並不是互斥的屬性，而是可以和諧共存的。我們也期待，未來能有更多這樣的模型出現。

相關資訊