AI週報| 大模型測不出9.11和9.9哪個大;OpenAI發佈輕量化模型GPT-4o mini

大模型測不出9.11和9.9哪個大

一道小學生難度的數學題難倒了一衆海內外AI大模型。9.11和9.9哪個更大?就此問題,7月17日,第一財經記者測試了12個大模型,其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,但ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量都答錯了,錯法各有不同。大部分大模型在問答中都錯誤地比較了小數點後的數字,認爲9.11大於9.9。

點評:失誤背後,大模型數學能力較差是長期存在的問題,有行業人士認爲,生成式的語言模型從設計上就更像文字思維而不是數字思維。不過,針對性的語料訓練或許能在未來逐步提升模型的理科答題能力。

OpenAI發佈輕量化模型GPT-4o mini,兩年時間模型成本下降99%

當地時間7月18日,OpenAI發佈了新款輕量級的大模型GPT-4o mini。據介紹,GPT-4o mini即日起將在問答機器人ChatGPT中取代GPT-3.5 Turbo,企業用戶則能從下週起訪問GPT-4o mini。“我們預計GPT-4o mini將擴大人工智能的應用,讓人工智能變得更實惠。”OpenAI官網文章稱,GPT-4o mini的輸入價格爲15美分(0.15美元)/百萬tokens(詞元),輸出價格爲60美分(0.6美元)/百萬tokens,比GPT-3.5 Turbo便宜60%。OpenAI稱,公司還將在提高模型性能的同時繼續降低成本。相比2022年的text-davinci-003型號,GPT-4o mini的成本下降了99%。

點評:雖然OpenAI遲遲未發佈下一代模型GPT-5,但在現有能力基礎上,仍在更新模型,繼續推動大模型成本下降。其他大模型廠商今年也在推動模型輕量化。谷歌今年5月發佈了輕量級模型Gemini 1.5 Flash。Anthropic 3月發佈的Claude 3系列中,則包括輕量級的Claude 3 Haiku。參數較小的大模型今年來展現了頗高的潛力,通過加大數據量而不是加大參數量的方式訓練提升性能。

六家大模型廠商迴應大模型數字能力差的問題

第一財經記者近日聯繫並採訪了多家大模型廠商,包括阿里通義、騰訊混元團隊、月之暗面Kimi、MiniMax海螺、學而思九章、本站有道等在採訪中解答了大模型數學差的問題。阿里通義實驗室產品經理王曉明表示,類似問題是常見的數學計算和邏輯推理問題,也是模型訓練和使用的過程中研發者常進行測試的case(案例),大模型“答對”或“答錯”其實是個概率問題。騰訊混元團隊表示,大模型本身是一個概率模型,要讓它在各種情況下都能穩定地解決這種數值計算或比較問題比較難。

點評:“9.11和9.9哪個大”對人類不難,對大模型而言,卻不一定是容易回答的問題。綜合回覆來看,大模型廠商相關負責人提到的觀點包括,大模型還沒有精準掌控數字間的運算或比較規則,同時,人類對大模型的能力探索處於非常早期的階段。多名業內人士還認爲,未來需要增強底層基礎模型的智能水平,並從訓練數據層面和外部工具層面去解決這樣的失誤,最終方案可能是提升下一代模型的能力。對這種案例的發現,有助於廠商增加對大模型能力邊界的瞭解。

《人工智能法案》將於8月1日在整個歐盟範圍內生效

歐盟發佈的全球首個《人工智能法案》(EU AI Act)將於8月1日在整個歐盟範圍內生效,這也是迄今爲止全球發佈的一項最爲全面的針對人工智能監管的法案。歐盟《人工智能法案》也爲全球人工智能監管奠定了基礎,旨在實現與《通用數據保護條例》(GDPR)相同的“布魯塞爾效應”。根據最新的法案,違反規定的企業將被處以最高3500萬歐元或最高年收入7%的行政罰款,以較高者爲準。

點評:歐盟一直走在技術監管的最前沿。歐盟《人工智能法案》是全球首個全面的人工智能監管法案,顯示了歐盟在技術監管領域的前瞻性和領導力。不過,規則也會增加企業的營運成本,上海大邦律師事務所合夥人遊雲庭表示, GDPR實施以來,企業的成本,尤其是合規成本是大幅上升的。預計《人工智能法案》也一樣,意味着企業針對新的規定必須進行投資,並且任命專門的人員去研究合規政策,另外,處理違規通知、公開披露制度等也會增加成本。

七大模型參加“高考”後分數出爐:理科只能上二本

此前6月,上海人工智能實驗室旗下司南評測體系OpenCompass發佈了首個AI高考全卷評測結果,顯示語數外三科加起來,AI考生最高能得303分,數學全不及格。7月17日,OpenCompass進一步發佈了擴大學科範圍的測評,團隊對7個AI大模型進行了高考9個科目的全科目測試,這樣一來也就能與高考錄取分數線作比較。

如果AI參加高考,能被什麼大學錄取?OpenCompass測試發現,大模型如果參加文科考試,最好的成績能被“錄取”到一本,而參加理科考試,則最多隻能被二本“錄取”(以今年高考人數最多的河南省的分數線爲參考)。

點評:從閱卷老師們的評價來看,相對於人類考生,目前大模型依然存在較大侷限性。完成閱卷後,老師們一致認爲,大模型雖然對於基礎知識的掌握表現出色,但在邏輯推理和知識靈活應用方面,仍然差強人意。具體而言,在作答主觀題時,大模型往往無法完整理解題幹,不明白代詞指向,結果導致答非所問;解答數學題時,解題過程機械且邏輯性差,對於幾何題,常出現與空間邏輯相違背的推斷。

李飛飛孵化“獨角獸”,World Labs估值超10億美元

7月17日,有消息稱,著名華裔計算機科學家李飛飛創辦的"空間智能"創企World Labs估值已經超10億美元。該創企主要利用類似人類的視覺數據處理技術,使AI具備高級推理能力。

從今年4月成立至今,World Labs已經進行了兩輪融資,投資方包括頂級科技投資者Andreessen Horowitz和AI基金Radical Ventures。據瞭解,該企業最新一輪的融資金額可能達到約1億美元。李飛飛、Andreessen Horowitz和Radical Ventures均未迴應置評請求。

點評:作爲一個傳奇人物,李飛飛的創業動向也頗受業界關注。李飛飛在33歲成爲斯坦福計算機系終身教授,44歲成爲美國國家工程院院士,現任斯坦福以人爲本人工智能研究院(HAI)院長。計算機視覺領域標杆成果ImageNet亦是由她一手推動。其門下高徒頗多,如先後在OpenAI、特斯拉任職的Andrej Karpathy、目前在英偉達的Jim Fan等,也都是AI領域內頗具影響力的人物。

AI芯片和雲廠商巨頭“搶購”全球AI企業

據企業服務數據庫公司Crunchbase統計,今年上半年全球AI初創公司融資同比增長了24%至356億美元,第二季度是近年AI投資最多的一個季度。第一財經記者據公開資料統計,今年英偉達已經投資或收購了不少於16家AI相關企業,其中多數融資輪次總金額過億美元。微軟投資OpenAI後,今年也參與了多輪總金額過億美元的融資。谷歌則通過旗下多個投資平臺廣泛佈局AI生態,參與了不少於31輪融資。這輪AI投資熱潮中,活躍的身影還包括AMD、亞馬遜、軟銀等。

點評:AI的火熱直觀體現在投資中。各大巨頭投資風格偏好不完全相同,值得玩味的是,不論是英偉達、AMD這種主業爲半導體硬件的廠商,還是微軟、谷歌、亞馬遜這種雲廠商,或多或少都希望投資一些大模型廠商,雲廠商對強綁定大模型初創企業的意願更加強烈。觀察今年業內最大的幾筆融資,可以發現基礎大模型、自動駕駛、AI數據和人形機器人是最大的熱點。

英國對微軟、Inflection AI交易展開反壟斷調查

英國反壟斷監管機構“競爭與市場管理局”(CMA)近日表示,該機構已開始對微軟-Inflection AI交易展開正式的反壟斷調查。今年3月,微軟同意向AI初創公司Inflection AI支付6.5億美元,用於獲得其AI軟件的授權。此外,微軟還宣佈聘用Inflection AI的聯合創始人Mustafa Suleyman和Karén Simonyan,以及該公司的大部分員工。

點評:Inflection AI的估值約爲40億美元,業內人士稱,微軟的行爲相當於低價、變相吞併Inflection AI。與收購不同的是,Inflection AI仍然保留其專有的技術。除了英國,上個月還有報道稱,美國聯邦貿易委員會(FTC)也正在對這一交易進行審查。報道稱,FTC已向微軟和Inflection AI發出傳票,要求提供過去兩年的相關文件。

人形機器人公司逐際動力完成A輪融資

7月15日,第一財經記者獲悉,通用人形機器人初創公司逐際動力完成A輪融資,領投方爲招商局創投、上汽集團旗下私募股權投資平臺尚頎資本,老股東峰瑞資本、綠洲資本和明勢資本跟投,融資額還未披露。此前,阿里也投資了逐際動力。逐際動力成立於2022年,創始人張巍是南方科技大學長聘教授,逐際動力旗下產品包括全尺寸人形機器人、四足機器人、雙足機器人及相關解決方案。

點評:多家人形機器人公司還在融資過程中。今年來,人形機器人賽道融資事件不斷。今年1月,星動紀元宣佈完成過億元天使輪融資,隨後,宇樹科技宣佈完成10億元B2輪融資,開普勒探索機器人完成天使輪融資,銀河通用機器人完成7億元天使輪融資。互聯網大廠騰訊、百度、阿里分別投資了優必選、智元機器人、逐際動力,美團則投資了銀河通用機器人、宇樹機器人。人形機器人企業紛紛融資後,下一步的看點是如何量產落地。

英偉達聯合Mistral AI發佈大模型Mistral-NeMo

7月19日消息,英偉達聯合法國初創公司Mistral AI發佈Mistral-NeMo AI大語言模型,擁有120億個參數,上下文窗口(AI模型一次能夠處理的最大Token數量)爲12.8萬個token。Mistral-NeMo AI大模型主要面向企業環境,不需要使用大量雲資源的情況下,實施人工智能解決方案。

點評:Mistral AI今年已完成6億歐元融資,投資者名單中包括英偉達、三星。微軟此前也宣佈向Mistral AI投資1500萬歐元,這筆資金將在Mistral AI的下一輪融資中轉換爲股權。Mistral AI已與英偉達合作推出大模型,該公司還將在各大巨頭之間平衡並尋求合作。英偉達則正在更深地介入AI生態,此前還開源Nemotron-4 340B系列模型,供開發人員使用以生成合成數據,用於訓練大型語言模型。