更新時間:2025-03-04 14:50:15來源:安勤游戲網(wǎng)
近日,DeepSeek開源周活動進(jìn)入了第四天,與前幾日接連不斷的開源項目發(fā)布相比,這一天的發(fā)布略顯姍姍來遲,讓眾多期待已久的觀眾稍感焦急。然而,這份等待最終被證明是值得的,因為DeepSeek在這一天一次性揭曉了兩項重量級的開源技術(shù)。
首先亮相的是DualPipe技術(shù),這是一項基于DeepSeek-V3技術(shù)報告提出的創(chuàng)新算法,被命名為“雙向管道并行算法”。該算法通過實現(xiàn)計算通信階段的雙向重疊,即在向后計算和向前計算的同時進(jìn)行數(shù)據(jù)傳輸,顯著減少了深度學(xué)習(xí)訓(xùn)練過程中的空閑時間。DualPipe還引入了一種全新的流水線氣泡優(yōu)化調(diào)度策略,這一策略能夠有效緩解傳統(tǒng)管道并行技術(shù)中普遍存在的“氣泡”問題,從而提升了硬件資源的整體使用效率。據(jù)悉,該算法在GitHub平臺一經(jīng)發(fā)布,便迅速收獲了544個收藏。
緊接著,DeepSeek又推出了EPLB技術(shù),即“專家并行負(fù)載均衡器”。這項技術(shù)具有三大顯著特點:動態(tài)負(fù)載均衡、分層與全局平衡結(jié)合以及流量優(yōu)化。在動態(tài)負(fù)載均衡方面,EPLB基于混合專家(MoE)架構(gòu),通過復(fù)制高負(fù)載專家并采用啟發(fā)式算法進(jìn)行任務(wù)分配,有效優(yōu)化了GPU之間的負(fù)載分布。在分層與全局平衡結(jié)合上,該技術(shù)不僅能夠在單個節(jié)點內(nèi)進(jìn)行分層的負(fù)載管理,還能實現(xiàn)跨節(jié)點的全局負(fù)載均衡,顯著減少了GPU的閑置時間。EPLB在流量優(yōu)化方面同樣表現(xiàn)出色,它能夠在保持負(fù)載均衡的同時,通過調(diào)整專家的分布來降低節(jié)點間的數(shù)據(jù)通信量,從而進(jìn)一步提升了整體訓(xùn)練效率。
相關(guān)資訊
其他推薦