當前位置:安勤游戲網 > 安勤資訊 > Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

更新時間:2025-05-03 13:55:30來源:安勤游戲網

AI 不過周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發(fā)布了。

這是 Meta 首個基于 MoE 架構模型系列,目前共有三個款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出,只是預告,但 Meta 已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態(tài)型號”。

詳細來看一些關鍵詞 ——

Llama 4 Scout,16 位專家的 170 億激活參數的多模態(tài)模型,單個 H100 GPU 可運行,同類 SOTA,并擁有 10M 上下文窗口。

Llama 4 Maverick,128 位專家的 170 億激活參數多模態(tài)模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數只要一半,主打與 DeepSeek 一樣的性價比,單個 H100 主機即可運行。

Llama 4 Behemoth:2 萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

Meta

Meta 官推激情表示,這些 Llama 4 模型標志著 Llama 生態(tài)系統(tǒng)新時代 —— 原生多模態(tài) AI 創(chuàng)新的開始。

Meta

與此同時,大模型競技場排名迎來一輪更新。

此次發(fā)布的 Llama 4 Maverick,在困難提示、編碼、數學、創(chuàng)意寫作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個突破 1400 分的模型;。

而且跑分明確 —— 超越 DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型。

Meta

谷歌 CEO 劈柴哥第一時間發(fā)來賀電:

AI 世界,從不平淡!

恭喜呀!前進吧,Llama 4 團隊!

Meta

中杯、大杯首批亮相

了解了 Llama 4 家族全體成員后,我們先來見識一下首批發(fā)布的 2 個模型:

中杯

:Llama 4 Scout(偵查兵 Llama 4)。

大杯

:Llama 4 Maverick(特立獨行的 Llama 4)。

兩者均已能在 Llama 官網和抱抱臉上下載。

Meta

我們抓取并提煉出這倆模型的一些特點:

Meta 首批 MoE 架構模型

這是 Llama 系列,第一批使用 MoE(混合專家模型)構建的模型。

中杯 Llama 4 Scout 有 17B 激活參數,擁有 16 個專家模型。

大杯 Llama 4 Maverick 擁有 17B 激活參數,擁有 128 個專家模型。

至于還沒和大家正式見面的超大杯 Llama 4 Maverick,擁有 288B 激活參數,擁有 16 個專家模型。

非常長 ———— 的上下文

Llama 4 系列,均具有很長的上下文窗口。

這一點主要體現在 Meta 公布的中杯 Llama 4 Scout 的詳細數據里:

Llama 4 Scout 提供了行業(yè)領先的 100 萬上下文窗口。

經過預訓練和后訓練,Llama 4 Scout 長度為 256K,這使基本模型具有高級長度泛化能力。

這個配置,讓它在廣泛的測評集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結果更優(yōu)秀。

Meta

它在「大海撈針」測試上的表現如下:

Meta

結果如下:

Meta

那么之前的 Llama 系列模型的上下文窗口情況呢?

Llama 1,上下文窗口為 2k;

Llama 2,上下文窗口默認為 4k,但可以通過微調等可以拓展到 32k;

Llama 3,上下文窗口是 8k,后來 Llama 3.1 的長文本能力拓展到了 128k。

Meta 官方博客中是這么寫的:

(Llama 4 的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執(zhí)行個性化任務以及對龐大的代碼庫進行推理。

原生多模態(tài)設計

Llama 4 系列,開啟了 Llama 的原生多模態(tài)時代。

而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態(tài)模型”。

給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。

不是我說,Llama 終于長眼睛了?。?!

Meta