☰

Groq LPU人工智能推理芯片的運算表現可與主流廠商媲美

人工智能工作負載分爲兩個不同的類別：訓練和推理。雖然訓練需要較大的計算和內存容量，訪問速度並非主要因素，推理則是另一回事。在推理中，人工智能模型必須以極快的速度運行，爲最終用戶提供儘可能多的詞塊（單詞），從而更快地回答用戶的提示。

一家人工智能芯片初創公司 Groq 曾長期默默無聞，但現在它利用專爲大型語言模型（LLM）（如 GPT、Llama 和 Mistral LLM）設計的語言處理單元（LPU），在提供超快推理速度方面取得了重大進展。

Groq LPU 是基於張量流處理器（TSP）架構的單核單元，在 INT8 時可達到 750 TOPS，在 FP16 時可達到 188 TeraFLOPS，具有 320x320 融合點乘矩陣乘法，此外還有 5120 個矢量 ALU。

Groq LPU 擁有 80 TB/s 的帶寬，並具有大規模併發能力，其本地 SRAM 容量爲 230 MB。所有這些共同作用，爲 Groq 提供了出色的性能，在過去幾天的互聯網上掀起了波瀾。

在Mixtral 8x7B 模型中，Groq LPU 的推理速度爲每秒 480 個令牌，在業內處於領先地位。在 Llama 2 70B 等上下文長度爲 4096 個令牌的模型中，Groq 每秒可提供 300 個令牌，而在上下文長度爲 2048 個令牌的較小 Llama 2 7B 中，Groq LPU 每秒可輸出 750 個令牌。

根據LLMPerf Leaderboard 的數據，Groq LPU 在推斷 LLMs Llama 時擊敗了基於 GPU 的雲提供商，其配置參數從 70 億到 700 億不等。在令牌吞吐量（輸出）和到第一個令牌的時間（延遲）方面，Groq處於領先地位，實現了最高的吞吐量和第二低的延遲。

ChatGPT 採用 GPT-3.5 免費版，每秒可輸出約 40 個令牌。目前的開源 LLM（如 Mixtral 8x7B）可以在大多數基準測試中擊敗 GPT 3.5，現在這些開源 LLM 的運行速度幾乎可以達到 500 令牌每秒。隨着像 Groq 的 LPU 這樣的快速推理芯片開始普及，等待聊天機器人迴應的日子似乎開始慢慢消失了。

這家人工智能初創公司直接威脅到英偉達（NVIDIA）、AMD 和英特爾提供的推理硬件，但業界是否願意採用 LPU 仍是個問題，您可以在這裡進行試用：

https://groq.com/

Groq LPU人工智能推理芯片的運算表現可與主流廠商媲美

相關資訊