英國的寒武紀如何觸礁的?

2015年,兩名來自英國的創業者Simon Knowles和Nigel Toon正在爲他們的人工智能(AI)芯片項目尋找資金。

負責技術的Simon Knowles於1980年代畢業於劍橋大學,早期在英國政府研究實驗室研究神經網絡,創辦的第一家公司Element 14即成爲90年代的獨角獸,並在2000年以6.4億美元的價格出售給博通。而Nigel Toon則是商業人才,在1990年代加入美國科技企業Altera,並在Altera擔任歐洲業務的副總裁與總經理。

左:Nigel Toon,右:Simon Knowles(圖片來自graphcore官網)

2002年,兩人合夥創辦了一家叫做Icera的3G modem(蜂窩調制解調器)芯片公司,並於2011年成功地以3.7億美元的價格賣給英偉達。從風投角度來看,二人的履歷應該是最受追捧的團隊模板:背景光鮮,能力互補,連續創業,成功套現。

但尷尬的是,專用AI芯片賽道並不被主流VC認可,兩人甚至一度找不到投資人開會。

這跟當時人工智能賽道的熱鬧截然相反。2015年的ImageNet大賽,所有排名靠前的玩家都在使用GPU進行圖像識別,距離AlexNet模型第一次利用GPU訓練神經網絡模型奪冠已經過去了三年,行業內掀起AI熱潮。

但實際上,AI在當時只是個業內自嗨的小衆熱點。Simon和Nigel尋求融資時,一半的投資人問“什麼是AI芯片?”另一半投資人認可AI的前景,但對其上游的芯片設計卻不感冒,原因是“認爲英偉達的GPU可以覆蓋行業需求。”[2]

眼看新項目就要胎死腹中,殊不知AI芯片已經走到了黎明時刻。

這一年,谷歌已秘密研發出一款專注於AI領域中機器學習算法的芯片,並將其用在內部的雲計算數據中心中,以取代英偉達的GPU。2016年5月,這款自研芯片公諸於世,就是大名鼎鼎的TPU。這名字一出來,內行外行都看懂了:GPU並不是AI芯片的唯一選擇,新的處理器設計可能存在市場空間。

TPU的推出也給兩位創業者帶來了信心。一個月後,Knowles和Toon的AI芯片公司:Graphcore正式成立,由Nigel Toon擔任CEO,Simon Knowles擔任CTO。

Graphcore火速籌到的A輪3200萬美元,於2016年10月到位。在隨後的四年裡,其融資進程也是一路狂飆:2020年12月,E輪融資落地。Graphcore四年間共獲投7.1億美元,市值27.7億美元,一躍成爲融資和估值最高的AI硬件初創公司,投資者包括三星、微軟、戴爾等科技巨頭,也包括紅杉資本、柏基投資(Baillie Gifford)等頂級風投。

成功“上岸”的Simon Knowles自然是吃水不忘挖井人,特地給谷歌AI業務的負責人Jeff Dean寫了一封感謝郵件,內容是[1]:“同志,謝謝你!(Thanks, mate.)”

如果站在今天的時間點,Jeff Dean可能會回覆一句:別高興的太早。

01

產品:專爲AI加速而生的芯片

Graphcore的核心產品叫做IPU(Intelligence Processing Unit)。

IPU誕生的背景是,隨着芯片製程的迭代,半導體行業的兩大定律:摩爾定律和登納德縮放比例定律(Dennard Scaling)在逐漸失效。

摩爾定律說的是:集成電路上可以容納的晶體管數目在大約每經過18個月到24個月便會增加一倍。登納德縮放比例定律認爲隨着晶體管密度的增加,單個晶體管的功耗會下降,因此芯片的功耗需求會保持不變。

這兩條定律都曾在過去幾十年被行業視爲金科玉律,GPU和CPU的發展都受益於此。但今天的情況是,芯片上晶體管很難再增加,而芯片的功耗需求也變得越來越高,芯片本身就越來越燙。

因此,就像香港的房屋一樣,在面積有限的情況下想要提高生活質量,勢必要在佈局結構上大動干戈,市場上關於“架構創新”的呼聲越來越大。專用計算芯片(ASIC)的需求應運而生,因爲針對具體應用場景的優化,可以比通用計算帶來更高的能效比。

ASIC的特點是徹底犧牲通用性,換取在特定應用上的極致效率。舉一個通俗的例子比喻:

GPU是能提供漢堡、披薩、包子、麪條等所有食物類目的綜合餐廳,優點是什麼都會做,缺點特別出彩的產品,出餐效率也一般。而ASIC是專做披薩或漢堡的美食專門店,味道極好,出餐效率也特別高,缺點則是想轉型做其他產品,就沒那麼容易了。

TPU就是典型的ASIC,它專爲谷歌的超級業務:雲計算數據中心而生。事實上,谷歌自研TPU的原因之一,就是因爲GPU會“燒”。

不過,和ASIC相比,IPU有更大的野心。

按照Nigel Toon的話來說,Graphcore不屬於CPU、GPU和ASIC中的任何一類,而是一款全新的,專爲AI加速而生的處理器:既有極高的運算能力以處理高性能計算業務(HPC),又和GPU一樣可編程,以滿足不同的場景需求。[3]

Graphcore的IPU主要有三個特點:

圖片來源:Graphcore官網

1. 計算核心有多達 1400 多個處理器內核,每個內核可運行 6 個線程。

內核數量的意義在於體現芯片的計算能力,二者呈正相關。每個內核裡都有一個計算單元(ALU),業界有一個非常典型的比喻:CPU就是一名會高等數學的大學生,會解複雜題型,而GPU和IPU是成百上千箇中學生,精通加減乘除。

在AI深度學習所需要的恰恰是大量簡單特定的運算,也就是“加減乘除”。在這種情況下,成百上千箇中學生加在一起的效率,比一個優秀的大學生更高。

而IPU和GPU的核心區別在於,處理器核採用了不同的架構。延續上文的比喻,兩支中學生團隊使用不同的計算方法。

GPU使用的SIMD架構通常用於處理器執行大量計算的問題,這些計算需要處理器並行執行相同命令,就像划船比賽中,所有隊員做同樣的事,共同提高團隊效率。

而 IPU使用的MIMD則將複雜算法分割爲無關的、獨立的部分,每個部分分配給一個不同的處理器來併發處理的解決方案,好比足球比賽中,隊員們雖然有同樣的進球目標,但是每個人承擔的職責不同。[4]

因此,IPU用到的MIMD架構能夠處理更復雜的操作。

圖左:SIMD架構的工作方式(GPU);圖右:MIMD架構的工作方式(IPU)

2. IPU 採用處理器片內分佈式存儲架構,而 GPU 採用顯存或高寬帶顯存 HBM,是片外的大型存儲。

與 GPU 的存儲架構中直接連接動態隨機存儲器(DRAM)相比,處理器的內存由IPU的本地靜態隨機存儲器(SRAM)組成,每個內核(tile)都執行只在本地內存上進行的計算。[5]

這樣可以避免了頻繁訪問外部存儲資源,大幅度提升頻寬、降低延遲和功耗,在特定情境下甚至可能會有近 50 倍的增幅。[6]

圖片來源:Citadel Securities Technical Report

3. 在跨芯片多核通信調度設計上, Graphcore IPU 設計了 BSP(Bulk Synchronous Parallel)的軟硬件結合算法,讓芯片內 1000 多個內核,以及多芯片可以跨 IPU 連接。

而GPU 是以多核多線程呈現,開發者需要處理不同線程之間的通信與數據同步問題。簡而言之,對軟件工程師或者開發者來說,採用BSP後的AI芯片非常易於編程。[8]

IPU的架構 圖片來源:Graphcore官網

02

定位:和英偉達的競爭和差異化

在技術負責人Simon Knowles眼裡,與英偉達展開全面競爭,實在不算一件聰明的事。

在接受海外博客節目The Robot Brains Podcast的採訪時,他分享了自己的創業準則:絕不試圖生產大公司現有產品的強化版。[9]——因爲大公司有龐大的市場基礎,初創企業在同一產品上很難與之抗衡。

Simon的觀點是:AI會存在於人類未來技術的任何領域,而所有行業的需求不可能由同一個架構來支持。而對於Graphcore來說,IPU只需要在特定領域表現得比GPU好,在這個爆炸式增長的市場中分到一杯羹就足夠了。

正如上文所提及,由於MIMD架構下的芯片能夠處理更復雜的操作,IPU對於目前在CPU和GPU上無法最佳運行的高性能計算任務具有吸引力。其中有關“稀疏數據”的處理就是它最主要的應用方向。

稀疏數據是指在數據集中絕大多數數值缺失或者爲零的數據,比如在電商平臺,相對海量商品而言,每個消費者購買的只是小部分產品,所以單個消費者的購買記錄就是一個稀疏數據。

在現實生活中,就常常要在海量的複雜信息中尋找指定關鍵信息,因此有關稀疏數據的計算非常普遍,而IPU能夠獨立和並行地執行許多非常不同的計算,恰符合稀疏計算的特點。

其中,分子就是稀疏數據結構最典型的應用案例。分子排列不規律,行爲複雜,而且很小。而IPU大規模並行結構的特徵,恰恰適合操作不規則的數據結構。[9]

具體到行業,IPU在化學材料和醫療領域都能得到應用,還曾被證明可用於輔助研究冠狀病毒。

2020年5月,微軟機器學習科學家Sujeeth Bharadwaj就曾將Graphcore IPU內置於微軟Azure操作系統中,並在胸部X光片中識別新冠[11]。他說:“Graphcore芯片可以在30分鐘內完成在英偉達傳統芯片上需要5個小時才能完成的工作。”

在商業模式上,Graphcore不直接對外銷售芯片,而是將IPU內置於叫“pods”的系統中,打包出售給下游的雲計算和服務器廠商。

微軟作爲Graphcore的投資人之一,在2019年第一款IPU產品發佈時就已成爲其最早使用的客戶。而另外一個大股東戴爾也鼎力支持,第一批用上了IPU。

除了自家投資人捧場,Graphore的主要客戶是歐洲的廠商。作爲歐洲唯一的AI獨角獸,難免要打着“國貨之光”的招牌向歐洲鄉親拉票。

2018年The Wired採訪人工智能大師Geoff Hinton,Hinton幫Graphcore做了一次超級公關,他對記者說:“我認爲我們需要轉向不同類型的計算機。幸運的是,我這裡有一個。”然後伸手進入他的錢包,拿出一個又大又亮的芯片,這個芯片就是Graphcore的IPU。

2021年,Graphcore與法國超級計算機制造商Atos和超級計算機芯片設計公司SiPearl都展開了合作,還在英國愛丁堡大學的EPCC超級計算中心安裝了基於IPU的Bow Pod系統。[12]

2022年6月,Graphcore又與德國框架供應商Aleph Alpha簽署協議,共同研究下一代多模態語言和視覺模型的預培訓、微調和推斷。與德國合作後,歐盟還特地強調,歐洲供應商需要這樣一條供應鏈,而不是依賴英偉達(Nvidia)等美國公司的人工智能[13]。

一個自主可控的“歐洲英偉達”,這個夢想無比性感。那些當年想做“歐洲Google”、“歐洲蘋果”、“歐洲亞馬遜”的人也曾經這樣幻想過。

03

觸礁:Graphcore面臨的問題

Simon說[9]:“如果你打算開發一種新型處理器,真的需要有一個20年的長遠視角。”不過,就算在技術層面規劃了未來20年。但在商業層面,卻未必過得好眼下這兩年。

2022年10月,英國《泰晤士報》突然爆出,Graphcore和微軟的合作已經泡湯了[14]。此前,IPU被內置於微軟Azure平臺上, 而現在可以明確的是,目前微軟Azure平臺上所用的AI芯片基本都來自英偉達,而且已經自己下場做AI芯片了。

圖片來源:The Times

2023年4月18日,著名科技媒體The Information爆料:微軟正在秘密研發自己的AI芯片,代號雅典娜(Athena)[18]。

雅典娜芯片由臺積電代工,採用5nm先進製程。據悉,微軟從2019年就開始研發這款芯片,目前已在測試階段。雅典娜的首個目標是爲Open AI提供算力引擎,以替代昂貴的英偉達A100/H100,節省成本。而下一步,可能就將劍指Azure雲服務,瓜分英偉達的蛋糕。

缺少大客戶的採購,Graphcore的業績一路低迷,外媒報道,2021年,Graphcore銷售額僅爲500萬美元,稅前虧損1.835億美元。賬目顯示,截至2021年底,現金、現金等價物和短期投資爲3.27億美元。[15]

這導致英美的頂級風投都拋售了Graphcore的股份,Baillie Gifford減記對其1660萬美元的投資,減記幅度達58%,紅杉資本也有類似的減持操作[16]。這給Graphcore帶來的直接影響是估值暴跌10億美元,與巔峰時期的28億美元相比,減少了35%。

Graphcore的困境揭示了一個殘酷的事實:初創公司挑戰英偉達帝國,是一件如登天一樣難的事情。

一方面,英偉達通過CUDA平臺、TensorCore、NVLink等技術來不斷鞏固GPU的護城河,尤其是CUDA生態,連Intel和AMD這種大廠都難以逾越,中小客戶幾乎沒有放棄英偉達、押注新玩家的可能。

而對於想降低成本、增加對英偉達談判能力的大廠,他們基本上都有能力組織資源自研AI芯片,Google、微軟、亞馬遜、特斯拉都已經入局,國內華爲、阿里、百度也都在開發自己的AI芯片,華爲昇騰910已經被用來組建超算平臺。

儘管IPU的誕生源於處理器設計空間具有新的“可能性”,但在眼下混沌又激烈的AI軍備競賽中,芯片客戶更需要“確定性”。

有投資人曾對外媒UK Tech News表示,“人們對英偉達的關注度很高——人們希望使用他們的技術,因爲這是安全的賭注。要把人們的注意力從這上面轉移開,是一個非常非常艱鉅的挑戰。”[16]

投資者也在用腳投票。截至2022年12月5日,2022 年全球半導體初創企業的風險投資達到 78 億美元,這與2021年創紀錄的 145 億美元的投資額相比下降了 46%,即便是與2020年103億美元相比也下降了24%。

Graphcore的融資神話止步在2020年末。但見GPU笑,哪聞IPU哭。

今年,ChatGPT火爆,英偉達狂飆。而Graphcore的CEO Nigel Toon卻心灰意冷地向英國政府發出一封公開信,希望政府“抵制外國大型科技公司的誘惑,它們正試圖排擠我們的英國公司。”

更具體一些,他直接點名道姓了英偉達。Toon說:“除非預算的很大一部分明確指定給英國供應商,否則這筆資金承諾將很快被美國芯片製造商英偉達(Nvidia)等數字巨頭消耗掉。”

Toon認爲,英偉達等公司憑藉其主導市場份額的優勢,一直在以低成本提供gpu,以激勵英國研究人員使用這些gpu,這種方式塑造了人工智能從業者和研究人員的習慣,並排斥了其他硬件供應商。因此,他呼籲英國政府,將耗資9億英鎊的新超級計算機項目使用Graphcore芯片。

一家誕生於老牌資本主義國家的公司,竟然主動呼籲貿易保護、封禁對手,說明事情已經到了絕望的地步。

04

尾聲

除了Graphcore之外,這些還涌現出不少中小AI芯片公司,比如Cerebras、Habana Labs、Mythic等。其中Habana Labs的結局可能算得上最好——被Intel以20億美金收購。

中小AI芯片公司所面臨的問題跟Graphcore類似:英偉達帝國堅不可摧,大客戶自研暗流涌動,人工智能行業一日千里,技術路線像六月的天氣一樣變化多端,能從英偉達碗裡奪食的可能只有像Google和微軟這樣的大廠。

半導體行業的金科玉律是:規模效應,芯片產量越大,芯片價格越低。英偉達和Graphcore等設計公司雖然沒有重資產的Foundry產線,鉅額的研發費用同樣也是一種“重資產”,出貨1萬片和出貨100萬片的企業成本相差懸殊。

中國的寒武紀本紀相比英國的“寒武紀”,一個優勢就是英偉達的最先進芯片如A100和H100根本賣不進來,只能賣閹割過後的A800。Nigel Toon夢寐以求的“貿易保護”,這中國廠商這裡反而能輕鬆獲得。

但拋開這點優勢,國內AI芯片公司所面臨的問題和Graphcore並無二致。即使是殘血的A800,在今年春節後也被國內大廠瘋狂搶購。OV小米可以無障礙地購買高通最新款消費級芯片,國內AI大廠卻不行,因此他們自研AI芯片的決心會比Google和微軟更大。

因此,無論是國內還是國外,各種“xPU”們想來分英偉達的羹,都沒那麼容易。

全文完,感謝您的閱讀。

關於「硅基研習社」:遠川研究所旗下新賬號,只研究三個方向:人工智能、機器人、芯片。深度思考,連接產業,追蹤浪潮,敬請關注。

參考資料

[1] 全球CEO峰會重磅演講者:Graphcore CEO:Nigel Toon的英國情結,EE Times China

[2] NVIDIA and the battle for the future of AI chips, wired

[3] Graphcore的AI芯片什麼水平?MLPerf告訴你, 半導體行業觀察

[4] Differences Between SIMD and MIMD, Mitchell White

[5] IPU Programmer's Guide,graphcore官網

[6] 摩爾定律放緩,靠啥提升AI晶片運算力?,EE Times Taiwan

[7] Dissecting the Graphcore IPU Architecture via Microbenchmarking,Citadel Securities Technical Report

[8] 直擊CPU、GPU弱項!第三類AI處理器IPU正在崛起,雷峰網

[9] Simon Knowles on pushing AI computing to the limit by rethinking chips,The Robot Brains Podcast(視頻)

[10] NanoBatch Privacy: Enabling fast Differentially Private learning on the IPU, Edward H. Lee等

[11] Microsoft detect Covid-10 in chest X-rays in 30 mins on IPU, Graphcore官網

[12] Graphcore signs strategic deal with Atos, EE News Europe

[13] Graphcore aims at European AI supply chain with German deal, EE News Europe

[14] Graphcore value crashes by $1bn after Microsoft deal is axed, The Times

[15] AI 'unicorn' Graphcore set to cut jobs, EE News Europe

[16] Graphcore loses Microsoft deal as key investors write down stake value, UK Tech News

[17] Using the Graphcore IPU for traditional HPC applications, Thorben Louw, Simon McIntosh-Smith

[18] Microsoft Readies AI Chip as Machine Learning Costs Surge, the information

編輯:戴老闆

視覺設計:疏睿

責任編輯:陳暢