剛剛,開源大模型的新王誕生了:超越GPT-4o,模型還能自動糾錯

機器之心報道

編輯:佳琪、蛋醬

快速更迭的開源大模型領域,又出現了新王:Reflection 70B。

橫掃 MMLU、MATH、IFEval、GSM8K,在每項基準測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。

這個新模型 Reflection 70B,來自 AI 寫作初創公司 HyperWrite。

HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 現在是「世界上最頂級的開源 AI 模型」。

Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上,並使用原始的 Llama chat 格式,確保了與現有工具和 pipeline 的兼容性。

Reflection 70B 已在多個基準測試中經過嚴格測試,包括 MMLU 和 HumanEval。測試結果表明, Reflection 的表現始終優於 Meta 的 Llama 系列,並與 GPT-4o 等全球頂尖的商用模型展開了激烈競爭。

其中,它在 GSM8K 的得分甚至達到了 99.2%。要知道,GSM8k 中可能有有超過 1% 的被標爲正確的答案實際上有錯,也就是說,Reflection 70B 的得分幾乎與滿分無異。

值得注意的還有 Reflection 70B 的零樣本推理能力。面對從未接觸過的內容,Reflection 70B 的表現超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測試中的得分。

Reflection 70B 特別適用於需要高精度的任務,它將推理分爲不同的步驟以提高精度。該模型可通過 Hugging Face 下載,API 訪問將於今天晚些時候通過 GPU 服務提供商 Hyperbolic Labs 提供。

假設訓練有素

模型自動糾錯

在通用能力之外,Reflection 70B 的亮點還包括「錯誤識別」和「錯誤糾正」。

一種名爲「Reflection-Tuning」的技術,使得模型能夠在最終確定回覆之前,先檢測自身推理的錯誤並糾正。

Reflection 70B 引入了幾個用於推理和糾錯的特殊 token,使用戶能夠以更結構化的方式與模型交互。在推理過程中,模型會在特殊標籤內輸出其推理,以便在檢測到錯誤時進行實時糾正。

Playground 演示網站包含供用戶使用的建議提示詞,比如那些很經典的例子:詢問 Reflection 70B 單詞「Strawberry」中有多少個「r」,以及哪個數字更大(9.11 還是 9.9),這兩個簡單的問題曾經難倒過很多大模型。

Reflection 70B 在測試中顯得有些遲緩,但最終 60 多秒後給出了正確的答案。

Reflection 70B 的發佈只是 Reflection 系列的開端。與此同時,Reflection 405B 也在推出的路上了,預計下週上市。Shumer 表示,它的性能將遠遠超過目前的專有或閉源 LLM,例如目前全球領先的 OpenAI 的 GPT-4o。

Shumer 宣佈,HyperWrite 正致力於將 Reflection 70B 模型集成到其主要的 AI 寫作助手產品中。

Reflection 405B 有望超越當今市場上最頂尖的閉源模型。HyperWrite 將發佈一份報告,詳細介紹訓練過程和基準,以及 Reflection 模型背後的創新之處。

兩個人在幾周內完成

歸功於 Glaive 的合成數據

Shumer 表示完成 Reflection 70B 只花了三週,團隊只有他和另一位 AI 創業公司的創始人 Sahil Chaudhary 兩個人。

在這麼短的時間內做出效果如此好的模型,Shumer 稱,都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門爲特定需求構建數據集的初創公司。Shumer 在 X 平臺上反覆 que 這一點:「聯繫了 Sahil 之後,訓練數據幾小時內就生成好了。」他還親自站臺安利:「如果你在訓練 AI 模型,一定要試試 Glaive 提供的服務。」

Glaive 專注於解決 AI 開發中最大的瓶頸之一:高質量、任務特定數據的可用性。在去年獲得了一輪 350 萬美元的種子輪融資。

Sahil Chaudhary

小型、更專業化的語言模型在使用 Glaive 提供的服務後,能夠更快地完成訓練。已經有一些小模型使用該公司已經證明了 Glaive 的能力,例如一個 3B 參數模型在 HumanEval 等任務上的表現超過了許多參數規模更大的開源模型。

火得措手不及

GPU 不夠用了

Reflection 70B 一經發布,就火了,跑去試用的人太多,模型已經反應不過來了。

本來可以在線試用 Reflection 70B,但現在和它聊天反應很慢。

但是根據手快的網友發來的測評,Reflection 70B 也確實沒辜負六個基礎測試集裡有四個都打敗了 Claude 3.5 Sonnet 的戰績。

比如,它是首個能想明白這道纏繞不清的邏輯題的大模型。

提示詞:有人在某地殺了 Agatha。Agatha、管家和 Charles 住在 此地,並且是那裡唯一的居民。殺手恨他的目標,並且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒有人恨所有人。誰殺了 Agatha?

向它提問:「柏林的魏森湖地區當地人通常在哪裡聚會?當地有哪些景點?」。對於這些本地人才知道的答案,其他模型雖然也能給出一些正確的回覆,但是總會冒出一些在柏林之外的地點。Reflection 70B 是第一個能正確地說出主要地點,並且沒有幻覺的模型。

Reflection-70B 的編碼能力也得到了認證。有網友在 ProLLM 的編碼輔助任務中對 Reflection-70B 進行了基準測試。它確實是最好的開源模型之一,擊敗了 Llama-3.1 405B。

不過,爆火的同時,由於 Reflection 70B 的底層模型採用了 Meta 的 Llama 3.1 70B Instruct,這也引發了一些爭議。

有網友認爲:「Reflection 70B 只是一種元提示(Meta-Prompting)的進步,似乎不能算是一種創新。」

但也有人對此提出反對,認爲「利用思維鏈和讓大模型說出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過程。

「萬一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」

團隊介紹

乍一看,Reflection 70B 似乎是橫空出世,HyperWrite 的知名度並不高。但其實 Shumer 已是 AI 領域的創業老將了:2020 年,他與就 Jason Kuperberg 共同創立了 Otherside AI。

從左至右分別爲 Otherside AI 的聯合創始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。

Otherside AI 憑藉其當家產品 HyperWrite 收穫了一波流量。HyperWrite 最初是一款根據要點撰寫郵件和消息的 Chrome 插件。後來,它的功能越來越強大,拓展出了起草文章、總結文本等功能。截至 2023 年 11 月,HyperWrite 擁有兩百萬用戶。隨着兩位聯合創始人登上了福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名爲 HyperWrite。

在最新一輪融資中, HyperWrite 獲得了 280 萬美元的投資。在這筆資金的加持下,HyperWrite 引入了 AI 驅動功能,升級成了可以從網頁瀏覽器自動完成預定航班、在 LinkedIn 上篩簡歷的智能管家。

HyperWrite 在線幫你訂達美樂披薩的外賣。

參考鏈接:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/