4月28日消息(九九)今天上午,以“算力網絡點亮AI新時代”為主題的中國移動算力網絡大會在蘇州開幕。在大會主論壇上,中國工程院院士鄭緯民介紹,支持大模型訓練的三類系統(tǒng)分別是基于英偉達公司GPU的系統(tǒng)、基于國產AI芯片的系統(tǒng)和基于超級計算機的系統(tǒng)。
鄭緯民指出,基于英偉達公司GPU的系統(tǒng)硬件性能好,編程生態(tài)好,但是價格暴漲,一卡難求;基于國產AI芯片的系統(tǒng)面臨國產卡應用不足、生態(tài)系統(tǒng)有待改善的問題;至于基于超級計算機的系統(tǒng),“當前有14個國家級超算中心,機器不是用得非常滿,采用軟硬件協(xié)同的設計在超算機器做大模型訓練成為可能。”
鄭緯民進一步指出,國產算力支撐大模型訓練,國產軟件生態(tài)需要做好幾件事:
首先是編程框架,降低編寫人工智能模型的復雜度,利用基本算子快速構建人工智能模型,例如PyTorch , TensorFlow。
其次是并行加速,為多機多卡環(huán)境提供人工智能模型并行訓練的能力,支持數據并行、模型并行、流水線并行、張量并行等。例如微軟DeepSpeed、英偉達Megatron-LM。
三是通信庫,提供跨機跨卡的通信能力,能夠支持人工智能模型訓練所需各種通信模式,能根據底層網絡特點充分利用網絡通信帶寬,例如英偉達NCCL庫、超算普遍支持的MPI通信庫。
四是算子庫,提供人工智能模型所需基本操作的高性能實現,要求能夠盡可能覆蓋典型人工智能模型所需的操作,要求算子庫能充分發(fā)揮底層硬件的性能例,如英偉達cuDNN,cnBLAS。
五是AI編譯器,在異構處理器上對人工智能程序生成高效的目標代碼,對算子庫不能提供的操作通過AI編譯器自動生成高效目標代碼,例如XLA、TVM。
六是編程語言,提供異構處理器上編寫并行程序的支持,要求覆蓋底層硬件功能,發(fā)揮硬件性能,能夠編寫人工智能模型的基本算子(Operator),例如英偉達的CUDA,Intel的oneAPI。
七是調度器,提供在大規(guī)模系統(tǒng)上高效調度人工智能任務的能力,設計高效調度算法,提高集群資源利用率,例如Kubernetes(K8S)、華為ModelArts。其中,內存分配系統(tǒng)針對人工智能應用特點提供高效的內存分配策略,容錯系統(tǒng)提供在硬件發(fā)生故障后快速恢復模型訓練的能力,存儲系統(tǒng)支持訓練過程中高效的數據讀寫(檢查點訓練數據等)。
鄭緯民強調:“國產AI芯片與業(yè)界領先水平存在一定差距,但如果生態(tài)做好了,客戶也會滿意,并且大多數任務不會因為芯片性能的微小差異而有明顯感知。”
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。