最強開源大模型Llama3深夜發佈 - 世界不能沒有Meta

其實昨天在微軟的偷跑之後,就已經有消息說,Llama3要出了。

這個消息的振奮程度,對於AI圈來說,甚至不亞於所謂的GPT4.5。

畢竟,meta纔是真正的那個"OpenAI"。

有多少大模型的生態,是建立在Llama上的,大家都懂。

而這個開源之光,被全世界無數人盯着的大模型,Llama3,在時隔近9個月之後的今晚。

終於正式發佈了。

我的幾個朋友,都已經瘋了,比如zR同學:

今夜無眠。

Llama3目前在自己的官網和huggingface上,模型已經上架:

https://llama.meta.com/llama3/

而且還是meta的老規矩,雖然寫的是特定條件下商業使用(月活不得超越7億),但是基本等於完全免費商用了。

這次開源了2個模型,8B和70B。

然後就是大模型的傳統藝能:跑分。

坦率的講,他們這個跑分,有一點的離譜。

5個評測集分別是MMLU(學科知識理解)、GPQA(一般問題)、HumanEval(代碼能力)、GSM-8K(數學能力)、MATH(比較難得數學)

不管是8B還是70B,基本等於全線秒殺。

8B這邊,直接把同尺寸的摁在地上打。

曾經的Mistral 7B也是有過輝煌的。

現在也被幹成了時代的眼淚。

甚至,Llama3自己的8B模型,效果都比Llama2的70B要好,這事就非常的特麼離譜。

而Llama3 70B那邊,直接對標Gemini Pro 1.5(Gemini:我到底做錯了啥)和Claude3 Sonnet。GPT-4逃過一截哈哈哈哈。

這個分數真的很恐怖了,畢竟參數量跟兩玩意都不是一個量級的,Llama3只有70B,還能打的有來有回,雖然跟Claude3最牛逼的那個Opus還有一些差距,但是這特麼是開源的啊!

他們還做了一個有趣的測試,搞了一個全新的高質量評估集。

裡面包含 1800 個提示,涵蓋 12 個關鍵用例,分別是:

尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結。

最騷的是,爲了防止過擬合,甚至Llama3自己的建模的團隊事先都不知道這玩意。然後針對 Claude Sonnet、Mistral Medium 和 GPT-3.5,對這些類別和提示進行人工評估。

結果就是:

很強。

不過也有兩個很der的點。

一個是知識庫時間,一個是上下文長度。

知識庫這塊,7B只到2023年3月,70B到了2023年12月。

上下文長度更是隻有可憐的8K。

知識庫的時間還好說,但是你這個上下文長度,在現在動不動200k的時代裡,屬實是有點不夠看了。。

Llama3的訓練數據,用了超過15T詞庫的預訓練,是Llama 2的七倍。包含的代碼數量是Llama 2的四倍。預訓練數據集含5%以上的非英語數據,覆蓋30多種語言。

而且,他們還有個400B的離譜玩意還在訓練中。但是我覺得400B的這玩意大概率不會開源。。。

再對比一下目前的主流的最強模型:

就...離譜

直接跟Claude3 Opus和GPT4 Turbo差不多,爆殺了Gemini Pro 1.5。

嗯。。。。無話可說。。。

現在可以直接在的官網用:https://www.meta.ai/

如果你沒Meta賬號的話,也可以在這用:https://llama3.replicate.dev/

當然,我相信更多的人,還是會下載下來,本地部署+微調。

Llama3的中文還是不咋地,幾乎就沒啥數據,所以還是得靠大佬微調以後才能用,前提是必須遵守Llama 3社區許可證和可接受使用政策。

而我們再跑了2小時後,我們發現很突出的一點是,代碼能力太炸了。

zR跑了很多的case(都是英文)。

比如一個經典的皇后問題。

Llama3-8B直接給出瞭解法:

然後,運行。

這特麼在Llama2中,基本是不可能的,只有專門的代碼模型,才能搞定。

要知道,Llama3-8B,只是一個8B的通用大模型啊。。。

然後,我們又上了一個賊難的一題。按zR的話說,這就是leetcode上,最難的一題。

題目是:

然後跑了一次,報錯了,給了報錯和答案錯誤,對話三次後:

。。。

他自閉了。

GPT4同樣出錯,享受跟Llama3-8B的同等待遇,還是沒幹出來。

但是Llama3-8B,幹出來了。。。

太抽象了。。。

總結來說,Llama3這次,絕對是王炸級別的模型。

也可以當之無愧的說,就是最強的開源模型。

Meta再次證明了,自己纔是那個"OpenAI",而那個OpenAI,只是個"CloseAI"。

世界不能沒有Meta。

還有個小插曲是,今天還是吳恩達的生日。

所以話說回來,OpenAI你的GPT5還在等啥呢?

快狙擊啊。別慫。

趕緊的。

我們等你。