祝賀!清華大學最新Nature

直接在邊緣設備上實現日益複雜的人工智能 (AI) 功能需要前所未有的邊緣硬件能效。基於電阻式隨機存取存儲器 (RRAM) 的內存計算 (CIM) 有望通過將 AI 模型權重存儲在密集、模擬和非易失性 RRAM 設備中,並通過直接在 RRAM 中執行 AI 計算來滿足這種需求,從而消除在單獨的計算和內存之間進行耗電的數據移動。

儘管最近的研究已經證明了完全集成的 RRAM-CIM 硬件上的內存矩陣向量乘法,但 RRAM-CIM 芯片的目標仍然是同時提供高能效、支持各種模型的多功能性和軟件可比的精度。儘管效率、多功能性和準確性對於廣泛採用該技術都是必不可少的,但它們之間相互關聯的權衡不能通過對設計的任何單一抽象級別的孤立改進來解決。

2022年8月17日,加州大學聖地亞哥分校Gert Cauwenberghs,Siddharth Joshi,Weier Wan,斯坦福大學H.-S. Philip Wong,清華大學高濱及吳華強共同通訊在Nature 在線發表題爲“A compute-in-memory chip based on resistive random-access memory”的研究論文,該研究通過對從算法和架構到電路和設備的所有設計層次進行共同優化,展示了 NeuRRAM——一種基於 RRAM 的 CIM 芯片,它同時提供了爲不同模型架構重新配置 CIM 內核的多功能性,能效是在各種計算位精度上比以前最先進的 RRAM-CIM 芯片好 1 倍,推理精度可與在各種 AI 任務中量化爲四位權重的軟件模型相媲美,包括 MNIST 上 99.0% 的準確率和 CIFAR-10 圖像分類上 85.7% 的準確率,谷歌語音命令識別的準確率爲 84.7%,在貝葉斯圖像恢復任務中圖像重建錯誤減少了 70%。

電阻式隨機存取存儲器 (RRAM) 內存計算 (CIM) 領域的早期研究側重於在製造的 RRAM 設備上展示人工智能 (AI) 功能,同時使用片外軟件和硬件來實現基本功能,例如模擬完整系統的數字轉換和神經元激活。儘管這些研究提出了各種技術來減輕與模擬相關的硬件非理想性對推理準確性的影響,但報告的 AI 基準測試結果通常是通過基於特徵設備數據執行軟件仿真獲得的。由於硬件非理想模型的不完整建模,與完全硬件測量的結果相比,這種方法通常會高估準確度。

最近的研究表明,完全集成的 RRAM 互補金屬氧化物半導體 (CMOS) 芯片能夠執行內存中矩陣向量乘法 (MVM)。然而,要在實際 AI 應用中廣泛採用 RRAM-CIM 芯片,它需要同時提供高能效、支持各種 AI 模型架構的靈活性和軟件可比的推理精度。到目前爲止,還沒有一項旨在同時改進設計的所有這三個方面的研究。此外,先前研究中的人工智能應用級基準測試的多樣性和複雜性有限。

沒有一項研究通過實驗測量了多個邊緣 AI 應用程序,其複雜性與 MLPerf Tiny 中的應用程序相匹配,MLPerf Tiny 是邊緣 AI 硬件的常用基準套件。挑戰來自效率、靈活性和準確性之間相互關聯的權衡。RRAM-CIM 架構中的高度並行模擬計算帶來了卓越的效率,但難以實現與數字電路相同水平的功能靈活性和計算精度。同時,由於在邊緣使用較少的過度參數化模型,對於更復雜的 AI 任務,實現對硬件非理想的算法彈性變得更加困難。

NeuRRAM 芯片的設計方法和主要貢獻(圖源自Nature )

爲了應對這些挑戰,該研究展示了 NeuRRAM,這是一種 48 核 RRAM-CIM 硬件,涵蓋了整個設計堆棧的創新。(1) 在器件層面,3 百萬個具有高模擬可編程性的 RRAM 器件與 CMOS 電路單片集成;(2) 在電路層面,電壓模式神經元電路支持可變計算位精度和激活函數,同時以低功耗和緊湊的面積進行模數轉換;(3) 在架構層面,雙向轉座神經突觸陣列 (TNSA) 架構能夠以最小的面積和能量開銷實現數據流方向的可重構性;(4)在系統層面,48個CIM核心可以並行進行推理,支持多種權重映射策略;(5) 在算法層面,各種硬件算法協同優化技術減輕了硬件非理想對推理精度的影響。

該研究報告了一系列 AI 任務的完全硬件測量推理結果,包括使用 CIFAR-10 和 MNIST 數據集的圖像分類、Google 語音命令識別和 MNIST 圖像恢復,使用各種 AI 模型實現,包括卷積神經網絡 (CNN)、長短 長期記憶(LSTM)和概率圖模型。該芯片經過測量可實現比以前最先進的 RRAM-CIM 芯片更低的能量延遲積 (EDP),同時它在一系列配置上運行以適應各種 AI 基準應用程序。

該研究通過對從算法和架構到電路和設備的所有設計層次進行共同優化,展示了 NeuRRAM——一種基於 RRAM 的 CIM 芯片,它同時提供了爲不同模型架構重新配置 CIM 內核的多功能性,能效是在各種計算位精度上比以前最先進的 RRAM-CIM 芯片好 1 倍,推理精度可與在各種 AI 任務中量化爲四位權重的軟件模型相媲美,包括 MNIST 上 99.0% 的準確率和 CIFAR-10 圖像分類上 85.7% 的準確率,谷歌語音命令識別的準確率爲 84.7%,在貝葉斯圖像恢復任務中圖像重建錯誤減少了 70%。

參考消息:

https://www.nature.com/articles/s41586-022-04992-8