☰

微軟英偉達力挺，OpenAI強敵出手，性能直逼GPT-4！

▲讓Pi聊天機器人比較Inflection-2.5與GPT-4▲CoreWeave-Infection AI超算的信息推測（圖源：The Next Platform）▲左爲Mustafa Suleyman，右爲Reid Hoffman（圖源：福布斯、Business Insider）▲Karén Simonyan部分高引用量學術成果

作者 | ZeR0編輯 | 漠影

智東西3月8日消息，又一家生成式AI獨角獸推出了性能匹敵GPT-4的大模型，而且訓練計算量只用了GPT-4的40%！

這是美國AI獨角獸企業Inflection AI最新發布的Inflection-2.5大語言模型，兼具高智商與高情商，支持聯網查詢內容，登錄Pi聊天機器人的網頁、iOS、安卓和桌面端app均可免費體驗。

試用直通車：https://pi.ai/talk

一個月之內，GPT-4連迎三個強勁的新競爭對手：Gemini 1.5 Pro、Claude 3 Opus，以及最新登場的Infection-2.5。這意味着GPT-4獨霸時代已經過去，大模型王者之戰還有很多可能。

在這場激烈的戰事中，Inflection AI既年輕又鋒芒畢露，成立剛滿兩年，由前DeepMind首席科學家Karén Simonyan、LinkedIn聯合創始人Reid Hoffman、DeepMind聯合創始人Mustafa Suleyman共同創辦，2023年6月獲得英偉達、微軟等參投的13億美元融資，估值達40億美元（摺合約287億人民幣），是當前全球第四大生成式AI獨角獸。

它是OpenAI的大語言模型勁敵之一，以“爲每個人創造一個個性化的AI”爲使命，2023年5月推出了一款具有同理心、樂於助人和安全的個性化AI聊天助手Pi，11月推出基礎模型Inflection-2。與此同時，Inflection AI正在構建由22000塊H100 GPU組成的世界最大AI計算集羣。

現在，Inflection AI進一步給Pi加料——新升級的Inflection-2.5有“世界級的智商”、“獨特的善良”、“好奇的個性”，並具備4個主要亮點：

1、在關鍵基準測試中與GPT-4並駕齊驅，並且使用40%的計算量來訓練，與其他頂級基礎模型相比訓練效率優勢顯著。

2、在編程、數學等STEM（科學、技術、工程、數學）領域進步顯著。

3、“世界級”實時網絡搜索功能：確保用戶能獲得高質量、最新的新聞和信息，增強用戶體驗和交互的即時性。

4、廣泛可用性+顯著滿意度：對所有Pi用戶開放，支持多平臺訪問，對用戶情緒、參與度和留存率產生顯著影響，加速了有機用戶增長。

繼Anthropic後，又一家初創公司推出了性能強大、能與GPT-4一較高下的大語言模型，並在優化模型訓練方法上大秀肌肉。這展現了創業團隊在大模型競賽中的潛力和衝勁，隨着大模型性能不斷升級，如何用更少計算資源訓出更強模型，將是接下來產學界都重點探索的方向。

一、用40%的計算量，訓練出接近GPT-4的性能

Inflection-1用了GPT-4訓練FLOPs的約4%，在不同的智商導向任務中，平均性能達到GPT-4水平的大約72%。Inflection-2.5用了GPT-4訓練FLOPs的40%，在不同的智商導向任務中，平均性能達到GPT-4的94%以上。

Inflection-2.5在MMLU基準測試上的成績相較Inflection-1進步明顯，略低於GPT-4。

MMLU基準測試衡量了從高中到專業難度的各種任務的性能。Inflection AI還根據GPQA鑽石基準進行評估，這是一個極難的專家級基準。

其測試還包括兩種不同的STEM（科學、技術、工程、數學）考試的結果：匈牙利數學考試和物理GRE（物理研究生入學考試）的表現。

在BIG-Bench-Hard（大語言模型難以解決的BIG-Bench問題的子集）上，Inflection-2.5性能比Inflection-1提高10%以上，接近GPT-4。

在MT-Bench上評估模型後，Inflection AI意識到，在推理、數學、編程類別中，有很大一部分（接近25%）的示例具有不正確的參考解決方案或具有錯誤前提的問題。因此Inflection AI更正了這些示例，併發布了該版本的數據集。

在評估這兩個子集時，Inflection AI發現在正確修正的版本中，其模型更符合他們基於其他基準的期望。

與Inflection-1相比，Inflection-2.5在數學和編程性能方面有了顯著進步。下表是在MBPP+和HumanEval+兩個編程基準上的評測結果對比。

在HellaSwag和ARC-C常識和科學基準測試上進行評估，Inflection-2.5同樣表現強勁。

二、特別緻謝微軟Azure和CoreWeave，正構建世界最大AI集羣

上面所有的評估都是用現在爲Pi提供動力的模型Inflection-2.5完成的，但是Inflection AI注意到，受web檢索的影響（沒有使用web檢索的基準測試），少量提示詞的結構以及其他生產端差異，用戶體驗可能會略有不同。

這家獨角獸企業還專門致謝了爲其提供算力資源的合作伙伴Azure和CoreWeave。

Azure是微軟雲計算服務，CoreWeave則是去年憑藉英偉達的支持坐擁數萬塊芯片狂攬算力大單的GPU雲服務黑馬。

2023年初，CoreWeave找到Inflection併爲其提供幾千張H100 GPU。英偉達看中了這個組合的巨大潛力，先後向兩家公司投資數億美元，擡高了Coreweave的H100供貨優先級。

2023年6月，Inflection AI宣佈與將與合作伙伴CoreWeave、英偉達一起，構建世界上最大的AI集羣，包含22000個H100 GPU。

就在宣佈最大AI集羣的一個月前，Inflection AI推出Pi聊天機器人，向OpenAI正式下戰書。

不同於ChatGPT等產品的“生產力工具”定位，Pi想做“個人AI”，成爲用戶24小時在線的數字朋友，更注重爲用戶帶來友好、豐富的社交互動體驗。Pi能記住與跨平臺登錄用戶的100次對話，支持網頁、APP、短信、社交平臺等設備交互。

相比其他AI聊天機器人，Pi可能在文本生成、代碼生成等能力上不算出衆，但在安全、同理心等特性上獨樹一幟。

這也是爲什麼這家創企剛創辦就從微軟等公司處籌集2.25億美元，一年後又拿到微軟、英偉達、微軟聯合創始人比爾·蓋茨、Alphabet前CEO Eric Schmidt等的13億美元融資，飛速成爲全球最大的生成式AI獨角獸之一。

截至2023年年底，Inflection AI估值約爲40億美元，是全球第四大生成式AI獨角獸，僅次於OpenAI、Anthropic、Character.AI。

三、聯創團隊有錢有技術：曾創辦DeepMind，曾投資OpenAI

2022年3月成立的年輕AI團隊，能贏得微軟和英偉達兩大巨頭的青睞，與其創始團隊密不可分。

Inflection AI聯合創始人Reid Hoffman被稱作“硅谷人脈王”，是硅谷最有名的天使投資人之一，他是全球最大專業社交網站LinkedIn的聯合創始人，以及風險投資機構Greylock Partners的合夥人，曾是OpenAI的創始投資者。

截至2023年5月，Reid Hoffman和Greylock Partners已投資至少37家AI公司。

另一位聯合創始人Mustafa Suleyman，2009年與幾位合夥人共同創立DeepMind，並將研究重點放到AI在醫療健康和氣候變化中的應用，但連年虧損壓得Suleyman喘不過氣。2014年，谷歌拋出橄欖枝，6億美元將DeepMind收入麾下。

背靠金主的DeepMind終於可以沒有資金之憂地繼續從事前沿研究，然而5年後，Suleyman卻選擇離開DeepMind，加入谷歌並擔任AI產品管理和AI政策副總裁。背後原因，據說是由於一些同事曾抱怨他在工作上騷擾和欺凌同事。

Suleyman也曾坦言，作爲DeepMind聯合創始人，他對員工的要求過於苛刻，有時他的管理風格並不具有建設性。2022年，他離開谷歌，創辦Inflection AI並擔任CEO，“希望與有遠見和無所畏懼的創始人在一起”。

第三位聯合創始人是前DeepMind首席科學家Karén Simonyan，現任Inflection AI首席科學家。他是同代中成就突出的深度學習研究者之一，其出版物（包括5篇在學術頂級期刊Nature和Science上的論文）吸引了超過18萬次引用。

Karén Simonyan在牛津大學完成了博士學位和博士後學位，期間設計了VGGNet圖像處理框架並在贏得了知名的ImageNet挑戰賽。隨後他創辦Vision Factory AI公司，將VGGNet商業化。這家公司很快就被DeepMind收購，Simonyan的身份則變成了DeepMind首席科學家。

任職DeepMind首席科學家期間，Simonyan建立並領導了大規模深度學習團隊，開發了基於真實世界數據的大型AI模型。他在AlphaZero、AlphaFold、WaveNet、BigGAN和Flamingo等AI突破中均發揮了關鍵作用。

結語：團隊僅70人，Pi每日聊天消息數超40億

根據Crunchbase，目前Inflection AI團隊規模不到50人據外媒Axios援引Suleyman的話，當前Inflection AI團隊擁有70名員工。

據Inflection AI透露，其100萬日活躍用戶和600萬月活躍用戶與Pi聊天機器人往來了超過40億條消息。與Pi的平均談話時間爲33分鐘，每天有1/10的談話時間超過1小時。在任何一週與Pi交談的用戶中，約有60%的人會在接下來的一週返回，其月粘性高於主要競爭對手。

Inflection AI認爲，新推出的Inflection-2.5保持了Pi的獨特、平易近人的個性和出色的安全標準，同時成爲一個更有用的模型。這個“智商”更加接近GPT-4的模型，將讓Pi在更具人性溫度的同時，成爲能夠提供更好建議的個人AI朋友。

微軟英偉達力挺，OpenAI強敵出手，性能直逼GPT-4！

相關資訊