☰

李飛飛團隊年度報告揭底大模型成本：Gemini Ultra是GPT-4的2.5倍

機器之心報道

編輯：蛋醬、陳萍

如何覆盤大模型技術爆發的這一年？除了直觀的感受，你還需要一份系統的總結。

今天，斯坦福 HAI 研究所發佈了第七個年度的 AI Index 報告，這是關於人工智能行業現狀的最全面的報告之一。

訪問地址：https://hai.stanford.edu/news/ai-index-state-ai-13-charts

報告指出，人工智能的發展正以驚人的速度向前推進，開發人員每月都在製造出越來越強大、越來越複雜的模型。然而，儘管發展速度加快，人工智能行業在解決人們對人工智能可解釋性的擔憂以及對其對人們生活影響的日益緊張方面卻進展甚微。

在今年的報告中，斯坦福 HAI 研究所增加了有關負責任人工智能的擴展章節，有關科學和醫學領域人工智能的新章節，以及對研發、技術性能、經濟、教育、政策和治理、多樣性和公衆輿論的綜述。

以下是報告的重點內容：

企業對生成式 AI 投資猛增

圖 4.3.1 展示了 2013 年至 2023 年全球企業人工智能投資趨勢，包括併購、少數股權、私募投資和公開發行。全球企業對人工智能的投資連續第二年下降。

2023 年，總投資下降至 1892 億美元，較 2022 年下降約 20%。然而，在過去十年中，企業對人工智能相關投資增加了十三倍。

圖 4.3.3 表明，AI 行業吸引了 252 億美元的投資，幾乎是 2022 年投資的九倍，是 2019 年投資額的約 30 倍。此外，生成式人工智能佔 2023 年所有人工智能相關私人投資的四分之一以上。

假如按區域進行比較，美國在人工智能私人投資總額方面再次領先世界。2023 年，美國投資額爲 672 億美元，大約是第二高國家中國投資額（78 億美元）的 8.7 倍，是英國投資額（38 億美元）的 17.8 倍（圖 4.3.8)。

谷歌在基礎模型競賽中佔據主導地位

報告顯示，谷歌在 2023 年發佈的基礎模型最多，圖 1.3.16 總結了 2023 年各個機構發佈的各種基礎模型。Google 發佈了最多的模型（18 個），其次是 Meta（11 個）和 Microsoft（9 個）。2023 年發佈基礎模型最多的學術機構是加州大學伯克利分校 (3 個)。

自 2019 年以來，Google 發佈的基礎模型數量最多，共有 40 個，其次是 OpenAI，有 20 個（圖 1.3.17）。清華大學也脫穎而出，發佈了七個基礎模型，而斯坦福大學是美國領先的學術機構，發佈了五個模型。

閉源模型優於開源模型

圖 2.11.4 和 2.11.5 將閉源模型與開源模型在選定的基準上進行了對比。在所有選定的基準上，閉源模型的表現均優於開源模型。

訓練成本

關於基礎模型，一個繞不開的話題是推理成本。儘管人工智能公司很少透露訓練模型所涉及的費用，但人們普遍認爲這些成本已達到數百萬美元，並且還在不斷上升。例如，OpenAI 首席執行官 Sam Altman 曾提到，GPT-4 的訓練成本超過 1 億美元。

圖 1.3.21 根據雲計算租賃價格直觀地顯示了與選定 AI 模型相關的訓練成本。下圖表明近年來模型訓練成本大幅增加。例如，2017 年 Transformer 模型訓練成本約爲 900 美元。2019 年發佈的 RoBERTa Large 訓練成本約爲 160,000 美元。2023 年，OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓練成本預計分別約爲 7800 萬美元和 1.91 億美元。

圖 1.3.22 顯示了 AI Index 估計的所有 AI 模型的訓練成本。如圖所示，隨着時間的推移，模型訓練成本急劇增加。

如圖 1.3.23 所示，對計算訓練需求更大的模型需要的訓練成本更多。

碳足跡

圖 2.13.1 顯示了選定 LLM 在訓練期間釋放的碳（以噸爲單位）的比較。例如，Meta 發佈的 Llama 2 70B 模型釋放了約 291.2 噸碳，這比一位旅客從紐約到舊金山的往返航班所釋放的碳排放量高出近 291 倍，大約是普通美國人一年碳排放量的 16 倍。然而，Llama 2 的排放量仍低於 OpenAI GPT-3 訓練期間報告的 502 噸排放量。

美國在基礎模型方面處於領先位置

2023 年，全球大部分基礎模型源自美國（109 個），其次是中國（20 個）和英國（圖 1.3.18）。自 2019 年以來，美國在大多數基礎模型的研發方面一直處於領先地位（圖 1.3.19）。

CS 博士畢業生

美國和加拿大計算機科學博士畢業生數量十年來首次顯著增加。2022 年，計算機科學博士畢業生人數達到 2105 人，爲 2010 年以來最高（圖 6.1.5）。

越來越多的 AI 博士畢業生在工業界尋求職業生涯（圖 6.1.7 和圖 6.1.8）。2011 年，工業界（40.9%）和學術界（41.6%）的就業比例大致相同。然而，到 2022 年，與進入學術界的人 (20.0%) 相比，畢業後進入工業界的比例 (70.7%) 明顯更高。過去 5 年，進入政府職位的 AI 博士比例一直保持在相對較低的水平，穩定在 0.7% 左右。

考生類別增加

下圖所示 AP CS 考生的種族多樣性正在增加。雖然白人學生仍然是最大的羣體，但隨着時間的推移，亞裔、西班牙裔 / 拉美裔等學生參加 AP CS 考試的人數不斷增加（圖 8.3.3）。2022 年，白人學生在考生中所佔比例最大（38.2%），其次是亞裔學生（27.8%）（圖 8.3.3 和圖 8.3.4）。

財報電話會議

去年，財富 500 強公司財報電話會議中提及人工智能的次數顯著增加。2023 年，有 394 場財報電話會議提到了人工智能（佔所有財富 500 強公司的近 80%），高於 2022 年的 266 場（圖 4.4.25）。自 2018 年以來，財富 500 強財報電話會議中提及人工智能的次數幾乎增加了一倍。

涉及的主題非常廣泛，最常被提及的主題是生成式人工智能，佔所有財報電話會議的 19.7%(圖 4.4.26)。

成本下降，收入上升

人工智能不僅僅是企業的流行語：麥肯錫的同一項調查顯示，人工智能的整合使企業成本下降，收入增加。總體而言，42% 的受訪者表示他們的成本降低了，59% 的受訪者表示收入增加了。

2023 年，不同領域的多項研究表明，人工智能使工人能夠更快地完成任務，並提高工作質量。其中一項研究考察了使用 Copilot 的編程人員，其他研究則考察了顧問、呼叫中心代理和法律專業學生。研究還表明，雖然每個工人都能從中受益，但人工智能對低技能工人的幫助要大於對高技能工人的幫助。

企業確實感知到了風險

報告對收入至少在 5 億美元以上的 1000 家公司進行了一次全球調查，以瞭解企業如何看待負責任的人工智能。

結果顯示，隱私和數據管理被認爲是全球最大的風險，而公平性（通常以算法偏見的形式討論）仍未被大多數公司所重視。

一張圖表顯示，企業正在針對其感知到的風險採取行動：各地區的大多數企業都針對相關風險實施了至少一項負責任的人工智能措施。

人工智能還不能在所有事情上擊敗人類……

近年來，人工智能系統在閱讀理解和視覺推理等一系列任務上的表現都優於人類，如 2015 年的圖像分類、2017 年的基礎閱讀理解、2020 年的視覺推理和 2021 年的自然語言推理。

但在一些複雜的認知任務中，人類的表現仍然優於人工智能系統，如視覺常識推理和高級數學問題解決（競賽級數學問題），讓我們明年再看看情況如何。

制定人工智能責任規範

當一家人工智能公司準備發佈一個大模型時，標準做法是根據該領域的流行基準對其進行測試，從而讓社區瞭解模型在技術性能方面是如何相互疊加的。然而，根據負責任的人工智能基準對模型進行測試的做法並不多見，這些基準主要評估有毒語言輸出（RealToxicityPrompts 和 ToxiGen）、反應中的有害偏差（BOLD 和 BBQ）以及模型的真實程度（TruthfulQA）。這種情況正在開始改變，因爲人們越來越意識到，根據這些基準檢查自己的模型是一件負責任的事情。

然而，報告中的一張圖表顯示，一致性還很欠缺：OpenAI、Google 和 Anthropic 在內的領先開發人員主要根據不同的負責任的 AI 基準測試他們的模型。這種做法使得系統地比較頂級人工智能模型的風險和侷限性的工作變得更加複雜。

法律對人工智能的促進和限制

報告指出，在 2016 年至 2023 年期間，有 33 個國家至少通過了一項與人工智能有關的法律，其中大部分行動發生在美國和歐洲；在此期間，總共通過了 148 項與人工智能有關的法案。研究者還將法案分爲旨在增強國家人工智能能力的擴張性法律和對人工智能應用和使用施加限制的限制性法律。

可以發現，雖然許多法案都在繼續促進人工智能的發展，但限制性立法已成爲全球趨勢。

AI 正讓人們變得緊張

報告的第九章是關於「公衆觀點」的，多倫多大學的一項國際調查顯示，63% 的受訪者知道 ChatGPT。在那些知道的人中，大約有一半的人每週至少使用 ChatGPT 一次。

但公衆對人工智能的經濟影響持悲觀態度。在 lpsos 的一項調查中，只有 37% 的受訪者認爲人工智能將改善他們的工作。只有 34% 的人認爲人工智能將促進經濟，32% 的人認爲它將促進就業市場。

這一指數的民意數據來自一項關於對人工智能態度的全球調查，31 個國家的 22816 名成年人（年齡在 16 歲至 74 歲之間）參與了調查。

超過半數的受訪者表示，人工智能讓他們感到緊張，而前一年這一比例爲 39%。三分之二的人現在預計人工智能將在未來幾年內深刻改變他們的日常生活。

該指數中的其他圖表顯示，不同人羣的觀點存在顯著差異，年輕人更傾向於樂觀地看待人工智能將如何改變他們的生活。

參考鏈接：https://spectrum.ieee.org/ai-index-2024

李飛飛團隊年度報告揭底大模型成本：Gemini Ultra是GPT-4的2.5倍

相關資訊