華為模型盤古 Ultra 驚艷全球:純昇騰集群訓練,性能比肩 DeepSeek-R1,英偉達含量為零

華為模型盤古 Ultra:純昇騰集群訓練,性能比肩 DeepSeek-R1

============================

在人工智能領域,模型的參數(shù)量、訓練資源和推理性能一直是衡量模型能力的重要指標。華為推出的盤古 Ultra模型,憑借其純昇騰集群訓練的優(yōu)勢,在參數(shù)量達到135B的情況下,實現(xiàn)了與DeepSeek-R1等模型競爭的優(yōu)異性能。本文將從算法、工程、數(shù)據(jù)等多個層面,深入剖析盤古 Ultra模型的技術細節(jié)和實現(xiàn)方式。

模型架構與優(yōu)化

--------

盤古 Ultra模型采用了94層網(wǎng)絡結構,包含96個查詢頭和8個鍵值頭。為了解決訓練超深網(wǎng)絡面臨的不穩(wěn)定性和收斂困難等問題,模型在架構上做出了兩個關鍵改進:深度縮放的Sandwich-Norm層歸一化和TinyInit參數(shù)初始化策略。

傳統(tǒng)的Transformer模型通常使用Pre-LN層歸一化,但在深度模型中,Pre-LN容易導致每個子層輸出尺度的波動,引發(fā)訓練不穩(wěn)定。盤古 Ultra使用的Sandwich-Norm層歸化,在殘差連接前對每個子層的輸出做歸一化,并根據(jù)網(wǎng)絡深度對初始化值進行縮放,有效消除了訓練過程中的loss尖峰,使訓練過程更加平穩(wěn)。

值得注意的是,Sandwich-Norm層歸化不僅在每個子層的輸入進行歸一化,還在子層和Post-Norm之間形成了一個“三明治”結構,進一步增強了模型的穩(wěn)定性。

然而,僅僅使用Sandwich-Norm層歸化可能無法完全消除深度模型訓練中的不穩(wěn)定性。因此,盤古 Ultra在Sandwich-Norm的基礎上,引入了深度縮放機制,對Post-Norm中的放縮參數(shù)γ進行了深度相關的初始化。這種深度相關的初始化策略有助于維持各層梯度的方差在一個合理的范圍內(nèi),避免了梯度消失或爆炸問題,進一步提升了模型的穩(wěn)定性。

此外,為了實現(xiàn)高效的訓練和推理,盤古團隊還針對Tokenizer進行了優(yōu)化。通過在通用中英文、代碼、數(shù)學等不同領域分別進行詞頻統(tǒng)計,再合并去重,最終得到了一個兼顧領域覆蓋和編碼效率的平衡詞表。

訓練設施與并行策略

----------

盤古 Ultra的訓練流程主要分為預訓練、長上下文擴展和指令調優(yōu)三個階段。預訓練階段又細分為通用階段、推理階段和退火階段。研究者們采用了基于規(guī)則和模型的數(shù)據(jù)清洗方法,并設計了curriculum learning策略,讓模型循序漸進地學習不同難度的樣本。

為了實現(xiàn)盤古 Ultra的高效訓練,研究團隊構建了一個由8192個昇騰AI處理器組成的訓練集群。每個節(jié)點包含8個NPU,通過華為高速緩存一致性互聯(lián)HCCS以全互聯(lián)的拓撲結構連接。節(jié)點間通過200Gbps的RoCE(RDMA over Converged Ethernet)網(wǎng)絡互聯(lián)。這樣的設施為大規(guī)模模型的訓練提供了強大的硬件支持。

在并行策略的選擇上,盤古 Ultra綜合考慮了模型的規(guī)模、數(shù)據(jù)的特性以及硬件的拓撲,最終采用了數(shù)據(jù)并行、張量并行、序列并行和流水線并行等多種并行方式的組合。這種策略有效地提高了數(shù)據(jù)吞吐量,降低了內(nèi)存負擔,并優(yōu)化了計算效率。

優(yōu)化技術與應用

--------

為了實現(xiàn)高效的并行訓練,盤古團隊還采用了一套系統(tǒng)的并行策略和優(yōu)化技術。其中,ZeRO分布式優(yōu)化器將模型狀態(tài)分片到不同設備,大幅降低了單個設備的內(nèi)存占用,提高了數(shù)據(jù)并行度。此外,團隊還通過各種通信和計算優(yōu)化技術最小化了通信開銷,提升了計算效率。

算法與工程層面的優(yōu)化是盤古 Ultra成功的關鍵因素之一。算子融合、通信計算重疊和MC^2/BOA等優(yōu)化技術減少了內(nèi)存訪問和啟動時間,實現(xiàn)了高效的通信和計算。這些優(yōu)化技術的應用不僅提升了模型的性能,也進一步降低了訓練成本。

此外,盤古團隊還通過精細的數(shù)據(jù)清洗和數(shù)據(jù)增強技術提升了模型的泛化能力。通過對數(shù)據(jù)的深度挖掘和利用,盤古 Ultra在各種任務中都表現(xiàn)出了卓越的性能。

性能表現(xiàn)與總結

--------

綜合來看,盤古 Ultra通過深度優(yōu)化模型架構、采用高效的并行策略和優(yōu)化技術、精細的數(shù)據(jù)清洗和增強等手段,實現(xiàn)了52%以上的算力利用率。該模型在預訓練階段就表現(xiàn)出優(yōu)異的性能表現(xiàn),并在指令調優(yōu)階段進一步提升性能。尤其在AIE 2024、MATH-500等數(shù)學推理任務和LiveCodeBench等編程競賽題上達到了SOTA水平。

總的來說,華為的盤古Ultra模型憑借其純昇騰集群訓練的優(yōu)勢和精細的技術優(yōu)化,成功實現(xiàn)了與DeepSeek-R1等MoE模型競爭的優(yōu)異性能。這再次證明了華為在人工智能領域的強大研發(fā)實力和技術創(chuàng)新能力。同時,該

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2025-04-15
華為模型盤古 Ultra 驚艷全球:純昇騰集群訓練,性能比肩 DeepSeek-R1,英偉達含量為零
華為模型盤古 Ultra:純昇騰集群訓練,性能比肩 DeepSeek-R1 ============================ 在人工智能領域,模型的參數(shù)量、訓練資源和...

長按掃碼 閱讀全文