AGI時代算力基礎(chǔ)架構(gòu)面臨的挑戰(zhàn)與機遇

目前,人工智能按照進化階段分為了弱人工智能(ANI)、通用人工智能(AGI)和超人工智能(ASI)三個階段。自1956年麥卡錫、明斯基等科學家首次提出“人工智能(Artificial Intelligence,簡稱AI)”這一概念,標志著人工智能學科的誕生;到2017年,谷歌Transformer模型的發(fā)布顛覆了傳統(tǒng)的自然語言處理模型,奠定了生成式AI的基礎(chǔ);再到2022年,OpenAI正式發(fā)布 ChatGPT并在短短2個月內(nèi)實現(xiàn)了用戶數(shù)破億,大量類ChatGPT的通用人工智能隨之涌現(xiàn),正式揭開了AGI時代的序幕。

正如微軟CEO薩提亞 · 納德拉所說,“AI的黃金時代正在到來,并將重新定義我們對工作的全部認識”。在各個行業(yè)中,必將涌現(xiàn)出無數(shù)基于類似GPT-4這樣的通用AGI平臺的創(chuàng)新應(yīng)用,重構(gòu)行業(yè)的產(chǎn)品、服務(wù)和流程,進而影響我們每一個人的工作、生活和學習。

人工智能的三要素包括數(shù)據(jù)、算法及算力。作為AI原料的數(shù)據(jù)是十分有限的,可利用的公域數(shù)據(jù)在2026年之前就會被大模型全部訓練完成。場景化AI訓練、微調(diào)的數(shù)據(jù)來源將尤其依賴于有價值的私域數(shù)據(jù),但私域數(shù)據(jù)往往是不開放的,隱私計算和聯(lián)邦學習則將成為打破數(shù)據(jù)孤島極為可行的方案,同時合成數(shù)據(jù)技術(shù)的應(yīng)用也將成為必然。

此外,算法復(fù)雜度呈指數(shù)級增長,模型層數(shù)、參數(shù)規(guī)??焖倥蛎浀耐瑫r也在不斷突破。當下,三要素中的算力成為了很多應(yīng)用落地的最大瓶頸。那么,AI算力基礎(chǔ)架構(gòu)具體面臨哪些挑戰(zhàn)與機遇?

挑戰(zhàn)

在AGI時代,數(shù)據(jù)大模型的參數(shù)規(guī)模呈現(xiàn)出快速增長的態(tài)勢。GPT從2018年的1.17億發(fā)展到2020年的1750億,文心一言3.0參數(shù)規(guī)模達到了2600億,Google的Palm 2參數(shù)量也超過3400億。隨著參數(shù)模型的日益龐大、摩爾定律陷入瓶頸。對計算效率精盡的追逐,使得馮?諾依曼模型的先天性不足被成倍放大。計算墻、內(nèi)存墻、通信墻、能耗墻成為了AGI算力基礎(chǔ)架構(gòu)的四大挑戰(zhàn)。

首先談?wù)凙I計算的主角GPU:大模型并行計算量巨大,以GPU/TPU代替CPU進行大量簡單重復(fù)計算,雖然計算效率有了明顯的提升,但單卡算力和大模型所需總算力之間仍然存在巨大差距。以GPT-3為例,每進行一次訓練迭代需要消耗4.5ExaFlops算力,而主流GPU卡單卡算力只能達到TFlops級別,百萬級別的算力差距便產(chǎn)生了算力墻。分布式訓練在一定程度上解決了算力墻問題,但綜合考慮TOC及不同的AI場景,使用專業(yè)的芯片和異構(gòu)計算架構(gòu)將成為突破算力墻的另一個必要方向。

參數(shù)量是衡量模型大小的最關(guān)鍵指標,參數(shù)越多對內(nèi)存的需求越大。以1750億參數(shù)的GPT-3為例,參數(shù)量(FP16精度)需要350GB內(nèi)存(175B*2Bytes),梯度(FP16精度)需要350GB內(nèi)存(175B*2Bytes),優(yōu)化器狀態(tài)(FP32精度)需要2100GB內(nèi)存(175B*12Bytes),總計需要2800GB內(nèi)存(350GB+350GB+2100GB),而主流的GPU卡僅能夠提供80GB顯存,單個GPU無法裝下如此龐大的參數(shù)量。此外,現(xiàn)有的計算架構(gòu)以CPU為中心,CPU主內(nèi)存與GPU本地內(nèi)存無法統(tǒng)一尋址,內(nèi)存資源相互隔離,GPU無法高效的使用CPU主內(nèi)存資源,最終導(dǎo)致產(chǎn)生內(nèi)存墻。

我們在利用大型分布式訓練解決算力墻和內(nèi)存墻問題的同時,又產(chǎn)生了通信墻。不同的并行訓練方式下,服務(wù)器內(nèi)及服務(wù)器間會分別引入AllReduce、AlltoAll、梯度數(shù)據(jù)聚合與分發(fā)等通信需求,通信性能強弱將影響整體計算速度的快慢。以千億級參數(shù)規(guī)模的大模型訓練為例,單次計算迭代內(nèi)梯度同步需要的通信量就達到了百GB量級。此外,AI大模型訓練是一種帶寬敏感的計算業(yè)務(wù),測試數(shù)據(jù)表明,采用200G網(wǎng)絡(luò)相對于100G網(wǎng)絡(luò),會帶來10倍以上的性能提升?;谝陨蟽煞矫妫粡埬軌驗闄C間通信提供高吞吐、低時延服務(wù)的高性能網(wǎng)絡(luò)十分重要,服務(wù)器的內(nèi)部網(wǎng)絡(luò)連接以及集群網(wǎng)絡(luò)中的通信拓撲同樣需要進行專門設(shè)計,實現(xiàn)算網(wǎng)的高效協(xié)同。

大模型的訓練和推理是兩頭能量怪獸,勢必帶來極大的功耗。當前業(yè)界主流的8卡GPU服務(wù)器最大系統(tǒng)功耗達到6500W,用于GPU服務(wù)器之間互聯(lián)的128口400G以太網(wǎng)交換機的功耗也接近3500W。假設(shè)ChatGPT要滿足每天2.5億的咨詢量,需要使用3萬張GPU卡,那么,僅僅在推理環(huán)節(jié)每天消耗的電費超過就超過50萬(按照每度電0.8元計算),因此能耗墻是每個運營者都要面對的現(xiàn)實問題。

算力墻、內(nèi)存墻、通信墻和能耗墻這四大挑戰(zhàn)之間存在一定的關(guān)聯(lián)性,這也決定了我們不能靠簡單的堆砌來解決問題,產(chǎn)品架構(gòu)的系統(tǒng)性設(shè)計顯得更為重要。紫光股份旗下新華三集團在計算、網(wǎng)絡(luò)、存儲方面都有長期的積累和沉淀,能夠系統(tǒng)性地研究和考慮以上的問題,并提出相應(yīng)解決方案。

算力墻應(yīng)對之道

面對AGI時代算力的爆發(fā)式增長需求,單一處理器無法同時兼顧性能和靈活度。在此情況下,用最適合的專用硬件去承擔最適合的計算任務(wù),并采用異構(gòu)計算架構(gòu)去整合這些多元算力,是突破算力墻的有效手段。

在當前的AI訓練場景,NVIDIA高端GPU是市場上的“硬通貨”,其2023年發(fā)布的Hopper架構(gòu)是NVIDIA GPU的集大成者,一經(jīng)推出便受到市場的青睞。

除了采用GPU外,為人工智能業(yè)務(wù)開發(fā)專用的AI芯片逐漸成為業(yè)界的新趨勢。

在AI芯片領(lǐng)域,最具代表性的是Google TPU(Tensor Processing Unit)。發(fā)布于2016年的第一代TPU成為了 AlphaGo 背后的算力擔當,當前已經(jīng)發(fā)展到了第四代的TPU v4。與 GPU 相比,TPU采用低精度計算,大幅降低了功耗、加快運算速度。

Meta也發(fā)布了MTIA(Meta Training and Inference Accelerator)自研AI芯片,該芯片采用RISC-V開源架構(gòu),可應(yīng)用在自然語言處理、計算機視覺、推薦系統(tǒng)等領(lǐng)域。

除了AI芯片日益多元化之外,AI芯片間的高速互聯(lián)技術(shù)也是突破算力墻的關(guān)鍵。

NVDIA首創(chuàng)了NVLink + NVSwitch技術(shù),為多GPU系統(tǒng)提供更加快速的互聯(lián)解決方案。借助NVIDIA NVLINK技術(shù),能最大化提升系統(tǒng)吞吐量,很好的解決了GPU互聯(lián)瓶頸。最新的NVIDIA Hopper架構(gòu)采用NVLINK4.0技術(shù),總帶寬最高可達900GB/s。

2023 年 5 月 29 日,NVIDIA推出的DGX GH200 AI超級計算機,采用NVLink互連技術(shù)以及 NVLink Switch System 將256個GH200 超級芯片相連,把所有GPU作為一個整體協(xié)同運行。

Google推出的OCS(Optical Circuit Switch)光電路交換機技術(shù)實現(xiàn)TPU之間的互聯(lián),解決TPU的擴展性問題。Google還自研了一款光路開關(guān)芯片Palomar,通過該芯片可實現(xiàn)光互聯(lián)拓撲的靈活配置,也就是說,TPU芯片之間的互聯(lián)拓撲并非一成不變的,可以根據(jù)機器學習的具體模型來改變拓撲,提升計算性能及可靠性。借助OCS技術(shù),可以將4096個TPU v4組成一臺超級計算機。

為了滿足AI加速芯片的互聯(lián)需求,OCP組織2019年成立了OAI開源項目組,通過OAM子項目定義業(yè)界通用形態(tài)的GPU/AI模塊、對外提供標準通信接口,建立OAI相關(guān)的技術(shù)架構(gòu)。芯片廠家只要將其GPU/AI加速芯片做成OAM模塊的形態(tài),通過UBB來承載多個OAM模塊,就可以在任何支持OAM/UBB模塊的服務(wù)器上兼容使用。

新華三集團作為OAI 2.0規(guī)范的主要起草單位,在國產(chǎn)化OAM方面多有相應(yīng)的落地實踐。那么如何在AI算力日益多元化的情況下,如何有效整合這些多元化算力?采用異構(gòu)計算技術(shù)是最佳選擇。在異構(gòu)計算領(lǐng)域,新華三開展了廣泛的實踐,H3C Uniserver R5500 G6踐行異構(gòu)計算設(shè)計理念,可搭載Intel或AMD CPU,機箱天然兼容NVIDIA Hopper架構(gòu)GPU以及OAI架構(gòu),同時提供對多家廠商DPU的支持能力,為不同的應(yīng)用場景提供了澎湃算力。

未來,還采用類似XPU Direct RDMA的異構(gòu)芯片通信技術(shù),實現(xiàn)異構(gòu)計算平臺互聯(lián)。XPU通信時不再需要CPU中轉(zhuǎn),大幅減少數(shù)據(jù)拷貝的次數(shù),提升了通信性能,有效整合了多元算力。

內(nèi)存墻應(yīng)對之道

隨著服務(wù)器向異構(gòu)計算架構(gòu)轉(zhuǎn)型,傳統(tǒng)的PCIe互聯(lián)模式已經(jīng)無法滿足高速緩存一致性和內(nèi)存一致性的需求。GPU加速卡無法使用Host主機自帶的內(nèi)存資源,無法很好的解決AI大模型訓練場景遇到的內(nèi)存墻問題。為此,迫切需要在服務(wù)器內(nèi)使用新興的互聯(lián)架構(gòu),突破內(nèi)存墻的限制。

NVIDIA Grace Hopper架構(gòu)中,完美的解決了大模型訓練的內(nèi)存墻問題。在該架構(gòu)中,Grace CPU和Hopper GPU使用帶寬高達900 GB/s NVLink C2C鏈路互聯(lián),GPU可以通過NVLink C2C透明地訪問CPU上的512GB內(nèi)存資源。

NVIDIA通過Grace Hopper向業(yè)界展現(xiàn)了突破內(nèi)存墻問題的解決方案。此外,AMD推出的 Instinct MI300,英特爾推出Falcon Shores也采用了類似的解決方案來突破內(nèi)存墻問題。但這些都屬于私有技術(shù)。有沒有一種開源方案既能解決大容量內(nèi)存問題和內(nèi)存一致性問題,又能避免對現(xiàn)有協(xié)議體系完全顛覆?Intel聯(lián)合其他8家科技巨頭于2019年成立的CXL(Compute Express Link)聯(lián)盟就致力于解決該問題。

CXL是一種開源的互聯(lián)技術(shù)標準,其能夠讓CPU與GPU、FPGA或其他加速器之間實現(xiàn)高速互聯(lián),并且維持CPU內(nèi)存空間和加速器設(shè)備內(nèi)存之間的一致性,以滿足資源共享、內(nèi)存池化和高效運算調(diào)度的需求。CXL組織已經(jīng)發(fā)布CXL3.0版本,其數(shù)據(jù)傳輸速率提升至 64 GT/s,并引入了Fabric功能和管理、改進的內(nèi)存池、增強的一致性以及對等通信等重要功能。放眼未來,CXL4.0基于PCI-Express 7.0標準,擁有更高的容量(512GB/S)和更低的延遲,將在性能上實現(xiàn)另一個層級的躍升。

當前,各大上游廠商都在開發(fā)或已推出支持CXL協(xié)議的部件,實現(xiàn)GPU顯存與主機內(nèi)存的統(tǒng)一尋址,解決內(nèi)存墻問題已經(jīng)近在眼前。暢想未來,隨著CXL Switch等關(guān)鍵部件的進一步發(fā)展,我們可以實現(xiàn)CPU、GPU、內(nèi)存等資源的進一步池化,各資源池通過CXL Switch互訪互通,在集群層面實現(xiàn)全局內(nèi)存一致性。

新華三集團在2019年4月正式加入了CXL組織,并于2022年升級為Contributor會員。新華三在CXL技術(shù)研究上進行了持續(xù)的投入,目前正在開展基于CXL技術(shù)的內(nèi)存池化、異構(gòu)互聯(lián)方面的研究。

通信墻應(yīng)對之道

在集群網(wǎng)絡(luò)方面,大模型訓練優(yōu)化過的無損網(wǎng)絡(luò)解決方案可提供高吞吐和低延時的網(wǎng)絡(luò)服務(wù),確保在大規(guī)模訓練時集群的性能。

端網(wǎng)融合的RoCE無損網(wǎng)絡(luò)

RoCE網(wǎng)絡(luò)是基于以太網(wǎng) RDMA技術(shù)實現(xiàn)的,它比IB更加開放。RoCE可以基于現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施進行部署,網(wǎng)絡(luò)管理更加簡化。但RoCE也面臨著一些挑戰(zhàn),比如ECMP負載不均、哈希沖突、PFC死鎖等。基于IP協(xié)議的開放性,出現(xiàn)了多種針對RoCE的優(yōu)化方案,其核心思想即將服務(wù)器、網(wǎng)卡、交換機作為一個整體,結(jié)合創(chuàng)新的擁塞控制算法,實現(xiàn)端網(wǎng)協(xié)同。

Google數(shù)據(jù)中心使用的TIMELY算法,由網(wǎng)卡進行端到端的RTT時延測量,根據(jù)RTT時延數(shù)據(jù)調(diào)整發(fā)送速率,實現(xiàn)高性能的RoCE網(wǎng)絡(luò)。TIMELY算法使用谷歌自研網(wǎng)卡實現(xiàn),主要應(yīng)用在Google內(nèi)部。

阿里團隊提出的HPCC擁塞控制算法,它使用可編程交換機,通過INT遙測攜帶網(wǎng)絡(luò)擁塞數(shù)據(jù),然后由智能網(wǎng)卡動態(tài)調(diào)整發(fā)送速率,獲得高帶寬和低時延的高性能網(wǎng)絡(luò)。

EQDS(edge-queued datagram service)是目前被廣泛討論的另一種擁塞控制解決方案。它將網(wǎng)絡(luò)中的絕大部分排隊操作從交換機轉(zhuǎn)移到發(fā)送端網(wǎng)卡上,使得交換機可以采用很小的緩存設(shè)計。EQDS由接收端網(wǎng)卡驅(qū)動,通過Credit機制,來指導(dǎo)數(shù)據(jù)包發(fā)送。另外EQDS使用Packet Spray實現(xiàn)逐包的負載均衡,以解決負載不均和哈希沖突的問題。如果交換機支持DCN(Drop Congestion Notification)技術(shù),可以由交換機實現(xiàn)數(shù)據(jù)包修剪(Packet Trimming),僅將擁塞報文的報文頭發(fā)送給接收端,接收端接收到報文頭后,可以要求發(fā)送端快速重傳數(shù)據(jù)包。實驗表明,EQDS在測試中表現(xiàn)出色,能夠顯著提高數(shù)據(jù)中心網(wǎng)絡(luò)的性能。

新華三集團正在研究基于自研服務(wù)器、智能網(wǎng)卡和高性能交換機,實現(xiàn)端網(wǎng)融合的RoCE無損網(wǎng)絡(luò)解決方案,為AI業(yè)務(wù)提供高性能無損通信網(wǎng)絡(luò)。

在網(wǎng)計算

除了通過增加網(wǎng)絡(luò)帶寬、提升鏈路利用率、優(yōu)化擁塞控制算法外,在網(wǎng)計算(In-Network Computer)是另一種優(yōu)化通訊開銷的重要手段。在網(wǎng)計算(In Network Computing)可以將AI分布式訓練的集合通信操作卸載到網(wǎng)絡(luò)設(shè)備上,讓網(wǎng)絡(luò)設(shè)備參與計算,減少計算節(jié)點之間的消息交互,大幅縮減AI分布式訓練的時間。

以集合通信中使用頻率最高的AllReduce規(guī)約運算為例,從各節(jié)點收集梯度,將訓練過程中的匯總規(guī)約卸載到集成了計算引擎單元的網(wǎng)絡(luò)交換機中進行,然后再更新至每一個節(jié)點。通過在網(wǎng)計算技術(shù),加速了整個Allreduce的過程,可以有效的減少網(wǎng)絡(luò)擁塞和降低通信延遲。

新華三集團積極投入在網(wǎng)計算技術(shù)的研發(fā),借助可編程交換芯片或在傳統(tǒng)交換機中引入FPGA芯片實現(xiàn)在網(wǎng)計算,提升AI訓練的整體性能。

高速以太網(wǎng)及光互聯(lián)

算力需求的爆發(fā)式增長推動了數(shù)據(jù)中心網(wǎng)絡(luò)向800G、1.6T及更高速率快速演進。光模塊作為網(wǎng)絡(luò)互聯(lián)的關(guān)鍵部件,隨著速率的提升其功耗也一路攀升,在整機系統(tǒng)的占比已經(jīng)遠超ASIC加風扇功耗之和。另外,高速光模塊在數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)中的成本占比也在大幅提升。為了應(yīng)對由此帶來的功耗、成本和時延挑戰(zhàn),業(yè)界出現(xiàn)了兩種最具潛力的解決方案。

LPO線性直驅(qū)技術(shù)去掉了光模塊中功耗最高的DSP芯片,由交換機ASIC芯片來對高速信號進行補償和均衡,在實現(xiàn)成本下降的同時,大幅降低了光模塊的功耗和延遲,非常適合應(yīng)用在短距大帶寬、低功耗低延時的AI/ML場景。

傳統(tǒng)可插拔光模塊到交換機ASIC芯片電信號連接距離較長,途經(jīng)點較多,累積損耗大。通過CPO/NPO等封裝技術(shù)的引入,顯著縮短了交換芯片和光引擎間的距離,同時能夠提供更高密度的高速端口,更適合在1.6T速率后實現(xiàn)高算力場景下的低能耗、高能效。

在高速互聯(lián)技術(shù)領(lǐng)域,22年新華三集團發(fā)布了采用NPO技術(shù)的400G硅光融合交換機S9825-32D32DO, MPO光引擎接口支持2KM傳輸距離,端口功耗降低40%以上。

2023年,新華三集團進一步推出了采用共封裝技術(shù)的CPO交換機,對外提供64個800G接口或128個400G接口,并計劃今年內(nèi)支持LPO線性驅(qū)動光模塊的128口400G,64口800G端口的交換機產(chǎn)品。未來,新華三將通過持續(xù)的技術(shù)創(chuàng)新為AI業(yè)務(wù)提供高性能、低延遲、低能耗的通信網(wǎng)絡(luò),破解通信墻的難題。

能耗墻應(yīng)對之道

降低AI模型整體能耗的主要方式依然是提高數(shù)據(jù)中心的散熱效率,液冷散熱方案因其低能耗、高散熱、低噪聲、低 TCO 等優(yōu)勢,有著巨大的發(fā)展?jié)摿Α?/p>

其中,浸沒式液冷散熱是典型的直接接觸型液冷,發(fā)熱元件與冷卻液直接接觸,散熱效率更高,噪音更低。目前,浸沒式液冷方案已由初期的單相式液冷進化為相變式液冷,充分利用冷卻液的蒸發(fā)潛熱,滿足散熱極端要求,保證IT設(shè)備滿功率運行。

目前,新華三集團在浸沒式液冷方案方面完成了全面布局,緊跟互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展步伐,秉承產(chǎn)學研一體理念,從冷板式液冷到浸沒式液冷,從單相式液冷到相變式液冷,從3M冷卻液到國產(chǎn)冷卻液,積極研究跟進推出新華三液冷系統(tǒng)一體化解決方案,包含液冷交換機、液冷服務(wù)器、熱交換單元、外冷設(shè)備等,并且在液冷方案方面持續(xù)進行方案迭代和前沿技術(shù)探索。

展望

本文主要從基礎(chǔ)架構(gòu)角度去討論如何應(yīng)對AGI時代的挑戰(zhàn)。隨著數(shù)據(jù)、算力及算法取得不斷的突破,人工智能將會重塑整個經(jīng)濟、社會、產(chǎn)業(yè)和人們生活的方方面面。這就需要互聯(lián)網(wǎng)企業(yè)應(yīng)整合各類資源打造垂直的生態(tài),借助生態(tài)伙伴的力量實現(xiàn)科技成果轉(zhuǎn)化,更好地賦能百行百業(yè)。作為數(shù)字化解決方案領(lǐng)導(dǎo)者,新華三集團具備百行百業(yè)的解決方案能力,通過把互聯(lián)網(wǎng)公司的大模型能力融入到新華三解決方案中,可以開展面向政府、企業(yè)、金融、醫(yī)療、教育等場景的N項業(yè)務(wù)合作,共同應(yīng)對快速場景化落地的挑戰(zhàn)。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-06-08
AGI時代算力基礎(chǔ)架構(gòu)面臨的挑戰(zhàn)與機遇
目前,人工智能按照進化階段分為了弱人工智能(ANI)、通用人工智能(AGI)和超人工智能(ASI)三個階段。自1956年麥卡錫、明斯基等科學家...

長按掃碼 閱讀全文