☰

NVIDIA 推出適用於小型 LLM 的全新混合架構 Hymba

據analyticsindiamag 11月23日報道，英偉達NVIDIA 近日推出了小型語言模型（LLM） Hymba-1.5B-Base，它將 Transformer 注意力機制與狀態空間模型 (SSM) 相結合,旨在提高自然語言處理任務的效率。

與其他小型LLM相比，Hymba-1.5B-Base 表現出了顯著的優勢。它在 20 億參數下的表現優於所有公開可用的模型，並且超越了 Llama-3.2-3B，平均準確率提高了 1.32%，緩存大小減少了 11.67 倍，吞吐量提高了 3.49 倍。

Hugging Face 的技術主管Philipp Schmid表示：“Hymba 的表現優於其他小型LLM，如 Meta 3.2 或 SmolLM v2，而LLM僅在 1.5T Tokens 上進行訓練。” NVIDIA還提供了一個安裝腳本以方便環境配置，支持CUDA版本12.1和12.4。NVIDIA 承認，Hymba是在互聯網數據上訓練的，其中包括惡意語言、不安全內容和社會偏見。因此，Hymba可能會反映這些偏見，對惡意提示產生惡意反應，甚至在中性提示下也會產生不準確或不相關的文本。

NVIDIA爲Hymba開發制定了道德準，並強調共同責任在創建值得信賴的AI方面尤爲重要，建議用戶負責任地使用該模型，同時注意其侷限性。

（編譯：雅慧）

鏈接：

https://analyticsindiamag.com/ai-news-updates/nvidia-launches-hymba-its-new-hybrid-architecture-for-small-llms/

NVIDIA 推出適用於小型 LLM 的全新混合架構 Hymba

相關資訊