NVIDIA 推出適用於小型 LLM 的全新混合架構 Hymba
據analyticsindiamag 11月23日報道,英偉達NVIDIA 近日推出了小型語言模型(LLM) Hymba-1.5B-Base,它將 Transformer 注意力機制與狀態空間模型 (SSM) 相結合,旨在提高自然語言處理任務的效率。
與其他小型LLM相比,Hymba-1.5B-Base 表現出了顯著的優勢。它在 20 億參數下的表現優於所有公開可用的模型,並且超越了 Llama-3.2-3B,平均準確率提高了 1.32%,緩存大小減少了 11.67 倍,吞吐量提高了 3.49 倍。
Hugging Face 的技術主管Philipp Schmid表示:“Hymba 的表現優於其他小型LLM,如 Meta 3.2 或 SmolLM v2,而LLM僅在 1.5T Tokens 上進行訓練。” NVIDIA還提供了一個安裝腳本以方便環境配置,支持CUDA版本12.1和12.4。NVIDIA 承認,Hymba是在互聯網數據上訓練的,其中包括惡意語言、不安全內容和社會偏見。因此,Hymba可能會反映這些偏見,對惡意提示產生惡意反應,甚至在中性提示下也會產生不準確或不相關的文本。
NVIDIA爲Hymba開發制定了道德準,並強調共同責任在創建值得信賴的AI方面尤爲重要,建議用戶負責任地使用該模型,同時注意其侷限性。
(編譯:雅慧)
鏈接:
https://analyticsindiamag.com/ai-news-updates/nvidia-launches-hymba-its-new-hybrid-architecture-for-small-llms/