24小时日本mv在线视频,免费乱码人妻系无码专区,国产好紧好爽好大再浪一点

Meta LIama 4 重奪開源第一：DeepSeek 同等代碼能力但參數減半，一張 H100 就能跑，還有兩萬億參數超大杯

更新時間：2025-05-03 13:55:30來源：安勤游戲網

AI 不過周末，硅谷也是如此。大周日的，Llama 家族上新，一群 LIama 4 就這么突然發(fā)布了。

這是 Meta 首個基于 MoE 架構模型系列，目前共有三個款：

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出，只是預告，但 Meta 已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號，也是同類產品中最好的多模態(tài)型號”。

詳細來看一些關鍵詞 ——

Llama 4 Scout，16 位專家的 170 億激活參數的多模態(tài)模型，單個 H100 GPU 可運行，同類 SOTA，并擁有 10M 上下文窗口。

Llama 4 Maverick，128 位專家的 170 億激活參數多模態(tài)模型，擊敗 GPT-4o 和 Gemini 2.0 Flash，與 DeepSeek-V3 同等代碼能力參數只要一半，主打與 DeepSeek 一樣的性價比，單個 H100 主機即可運行。

Llama 4 Behemoth：2 萬億參數的超大超強模型，以上二者都由這個模型蒸餾而來；目前還在訓練中；多個基準測試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

Meta

Meta 官推激情表示，這些 Llama 4 模型標志著 Llama 生態(tài)系統(tǒng)新時代 —— 原生多模態(tài) AI 創(chuàng)新的開始。

Meta

與此同時，大模型競技場排名迎來一輪更新。

此次發(fā)布的 Llama 4 Maverick，在困難提示、編碼、數學、創(chuàng)意寫作方面并列第一；得分 1417，不僅大大超越了此前 Meta 自家的 Llama-3-405B（提升了 149 分），還成為史上第 4 個突破 1400 分的模型；。

而且跑分明確 —— 超越 DeepSeek-V3，實現亮相即登頂，直接成為排名第一的開源模型。

Meta

谷歌 CEO 劈柴哥第一時間發(fā)來賀電：

AI 世界，從不平淡！

恭喜呀！前進吧，Llama 4 團隊！

Meta

中杯、大杯首批亮相

了解了 Llama 4 家族全體成員后，我們先來見識一下首批發(fā)布的 2 個模型：

中杯

：Llama 4 Scout（偵查兵 Llama 4）。

大杯

：Llama 4 Maverick（特立獨行的 Llama 4）。

兩者均已能在 Llama 官網和抱抱臉上下載。

Meta

我們抓取并提煉出這倆模型的一些特點：

Meta 首批 MoE 架構模型

這是 Llama 系列，第一批使用 MoE（混合專家模型）構建的模型。

中杯 Llama 4 Scout 有 17B 激活參數，擁有 16 個專家模型。

大杯 Llama 4 Maverick 擁有 17B 激活參數，擁有 128 個專家模型。

至于還沒和大家正式見面的超大杯 Llama 4 Maverick，擁有 288B 激活參數，擁有 16 個專家模型。

非常長 ———— 的上下文

Llama 4 系列，均具有很長的上下文窗口。

這一點主要體現在 Meta 公布的中杯 Llama 4 Scout 的詳細數據里：

Llama 4 Scout 提供了行業(yè)領先的 100 萬上下文窗口。

經過預訓練和后訓練，Llama 4 Scout 長度為 256K，這使基本模型具有高級長度泛化能力。

這個配置，讓它在廣泛的測評集上，比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結果更優(yōu)秀。

Meta

它在「大海撈針」測試上的表現如下：

Meta

結果如下：

Meta

那么之前的 Llama 系列模型的上下文窗口情況呢？

Llama 1，上下文窗口為 2k；

Llama 2，上下文窗口默認為 4k，但可以通過微調等可以拓展到 32k；

Llama 3，上下文窗口是 8k，后來 Llama 3.1 的長文本能力拓展到了 128k。

Meta 官方博客中是這么寫的：

（Llama 4 的長上下文）開辟了一個充滿可能性的世界，包括多文檔摘要、解析廣泛的用戶活動以執(zhí)行個性化任務以及對龐大的代碼庫進行推理。

原生多模態(tài)設計

Llama 4 系列，開啟了 Llama 的原生多模態(tài)時代。

而已經公開對外的中杯和大杯，被官方稱為“輕量級原生多模態(tài)模型”。

給用戶的體驗就是，上傳一張圖片，可以直接在對話框中提問關于這張圖片的各種問題。

不是我說，Llama 終于長眼睛了?。?！

Meta

相關資訊

Meta LIama 4 重奪開源第一：DeepSeek 同等代碼能力但參數減半，一張 H100 就能跑，還有兩萬億參數超大杯

Meta LIama 4 重奪開源第一：DeepSeek 同等代碼能力但參數減半，一張 H100 就能跑，還有兩萬億參數超大杯