Kimi 模型,硬核開源...

來源:PaperAgent

月之暗面 AI(Kimi)HuggingFace開源了首個模型:Moonlight-16B-A3B,超過同等參數規模的DeepSeek、Qwen、Llama模型。

Moonlight對比Qwen2.5-3B、DeepSeek V2-Lite、Llama3.2-3B

最近,基於矩陣正交化的Muon優化器在訓練小規模語言模型方面展現出了強大的效果,但在擴展到更大規模模型方面的可行性尚未得到驗證。Kimi確定了兩項關鍵的技術手段,用於擴大Muon的應用規模:

增加權重衰減,

精細調整每個參數的更新規模。

這些技術手段使得Muon能夠在大規模訓練中直接投入使用,而無需進行超參數調整。規模擴展規律實驗表明,與採用計算優化訓練的AdamW相比,Muon實現了約2倍的計算效率提升。

基於這些改進,Kimi推出了Moonlight,這是一個擁有3B/16B參數的混合專家(Mixture-of-Expert,MoE)模型,使用Muon進行了5.7T tokens的訓練。與以往的模型相比,以更少的 FLOPs 實現了更好的性能。

開源了分佈式Muon實現版本,該版本在內存使用上達到最優,並且通信效率很高。還發布了經過預訓練、指令微調以及中間checkpoints的模型,以支持未來的研究工作。