在武漢光谷未來(lái)科技城,一座占地2萬(wàn)平方米的智算中心里,1500PFLops雙千卡集群正悄然織就一套精密的智能中樞。中國(guó)移動(dòng)智算中心(武漢)作為全國(guó)首個(gè)區(qū)域型N節(jié)點(diǎn),承載著千億次模型訓(xùn)練的戰(zhàn)略使命。這個(gè)由湖北移動(dòng)與紫光股份旗下新華三集團(tuán)共同打造的AI算力高地,不僅是華中地區(qū)等級(jí)最高、規(guī)模最大的智算中心,同時(shí)也是中國(guó)移動(dòng)集團(tuán)首個(gè)正式交付的智算項(xiàng)目,更開創(chuàng)了AI數(shù)字基建的建設(shè)與運(yùn)維典范。
作為湖北移動(dòng)的重要合作伙伴,新華三集團(tuán)憑借其在 ICT 領(lǐng)域的深厚技術(shù)積累和豐富實(shí)踐經(jīng)驗(yàn),為這個(gè)全新的區(qū)域型智算節(jié)點(diǎn)的建設(shè)和運(yùn)維提供了全方位、高質(zhì)量的支持與服務(wù)。雙方攜手打造AIO智算運(yùn)維服務(wù)方案,提供面向ICT基礎(chǔ)設(shè)施、算力服務(wù)、模型訓(xùn)練推理等一站式智算綜合運(yùn)維服務(wù)支撐,構(gòu)建高效穩(wěn)定的GPU計(jì)算集群和算力無(wú)損網(wǎng)絡(luò),并基于該集群構(gòu)建端到端的技術(shù)服務(wù)支撐體系,護(hù)航這座矗立在長(zhǎng)江之畔的智算中樞成為點(diǎn)燃華中地區(qū)高質(zhì)量發(fā)展的新引擎。
打造智算中心技術(shù)服務(wù)新范式
隨著項(xiàng)目正式完成組網(wǎng)調(diào)試,一套涵蓋ICT基礎(chǔ)設(shè)施、算力服務(wù)、模型訓(xùn)練推理的全棧式服務(wù)體系同步成型,這也預(yù)示著智算時(shí)代的技術(shù)服務(wù)商正逐步轉(zhuǎn)型為算力服務(wù)架構(gòu)師,并通過(guò)系統(tǒng)工程思維將硬件實(shí)施交付轉(zhuǎn)化為持續(xù)服務(wù)能力。
面對(duì)湖北移動(dòng)對(duì)于人工智能計(jì)算平臺(tái)建設(shè)的整體需求,新華三集團(tuán)深入理解客戶業(yè)務(wù)場(chǎng)景,從系統(tǒng)架構(gòu)設(shè)計(jì)入手,充分利用先進(jìn)GPU的強(qiáng)大計(jì)算能力和算力網(wǎng)絡(luò)的高速互聯(lián)特性,按照最佳實(shí)踐規(guī)劃計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)以及網(wǎng)絡(luò)拓?fù)洳季郑咝阅艿南到y(tǒng)架構(gòu)確保硬件資源得到最大化利用,優(yōu)化電力供應(yīng)與散熱系統(tǒng),保障硬件長(zhǎng)時(shí)間穩(wěn)定運(yùn)行,助力湖北移動(dòng)構(gòu)建一個(gè)既能滿足當(dāng)前業(yè)務(wù)需求又能適應(yīng)未來(lái)發(fā)展的智能計(jì)算平臺(tái)。
在智算數(shù)據(jù)中心安裝部署完成后,新華三集團(tuán)項(xiàng)目服務(wù)團(tuán)隊(duì)對(duì)其進(jìn)行了全面的系統(tǒng)測(cè)試和性能驗(yàn)證,包括但不限于GPU計(jì)算節(jié)點(diǎn)、算力網(wǎng)絡(luò)、高性能存儲(chǔ)系統(tǒng)等關(guān)鍵組件。通過(guò)嚴(yán)格的測(cè)試流程和評(píng)估標(biāo)準(zhǔn),確保每一環(huán)節(jié)都達(dá)到甚至超越設(shè)計(jì)要求,為智算中心的正式上線運(yùn)行提供了有力保障。
網(wǎng)絡(luò)是智算中心數(shù)據(jù)傳輸?shù)拿}。新華三集團(tuán)提供7×24小時(shí)的網(wǎng)絡(luò)故障報(bào)警響應(yīng)機(jī)制,確保網(wǎng)絡(luò)問(wèn)題迅速定位和解決;利用專業(yè)的故障排查工具進(jìn)行診斷,實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)關(guān)鍵指標(biāo),收集和分析性能數(shù)據(jù),提前發(fā)現(xiàn)潛在問(wèn)題并采取針對(duì)性措施加以解決;同時(shí),定期檢查并升級(jí)網(wǎng)絡(luò)設(shè)備固件,制定合理的固件升級(jí)計(jì)劃,確保設(shè)備的安全性和性能穩(wěn)定性,為智算中心的數(shù)據(jù)通信提供高速、穩(wěn)定、可靠的網(wǎng)絡(luò)環(huán)境。
GPU卡作為智算中心的核心計(jì)算資源,其穩(wěn)定性和性能直接關(guān)系到整個(gè)系統(tǒng)的運(yùn)行效率。項(xiàng)目服務(wù)團(tuán)隊(duì)圍繞硬件健康監(jiān)測(cè)與維護(hù)、驅(qū)動(dòng)管理與更新、性能優(yōu)化與調(diào)整、故障排除與維修等維度,為GPU卡提供全面運(yùn)維服務(wù),實(shí)現(xiàn)GPU卡健康狀態(tài)管理,保障高可用性,滿足智算中心高強(qiáng)度的計(jì)算需求。
針對(duì)大型語(yǔ)言模型(LLM)在GPU計(jì)算節(jié)點(diǎn)上的高效運(yùn)行需求,新華三集團(tuán)提供了專業(yè)的驅(qū)動(dòng)/CUDA版本評(píng)估和驗(yàn)證服務(wù)。從安裝GPU卡驅(qū)動(dòng)、部署CUDA開發(fā)工具包,到優(yōu)化計(jì)算性能、集成開發(fā)工具和庫(kù),確保LLM在CUDA環(huán)境中的穩(wěn)定性和可靠性。這不僅充分發(fā)揮了硬件的性能優(yōu)勢(shì),還為人工智能模型的訓(xùn)練和推理提供了穩(wěn)定的動(dòng)力支持。
重構(gòu)智算時(shí)代運(yùn)維體系
在當(dāng)前大模型等AI應(yīng)用呈井噴式增長(zhǎng)的背景下,智算中心作為承載AI算力的核心載體,其規(guī)劃建設(shè)與運(yùn)維模式正經(jīng)歷顛覆性變革。傳統(tǒng)數(shù)據(jù)中心“穩(wěn)定優(yōu)先”的運(yùn)維理念,已無(wú)法滿足大模型時(shí)代對(duì)高彈性、高能效、高可管理性及高安全性的多維要求。
中國(guó)移動(dòng)智算中心(武漢)在規(guī)劃建設(shè)之初,旨在支持人工智能計(jì)算平臺(tái)建設(shè),圍繞智算組網(wǎng)、業(yè)務(wù)驗(yàn)證、產(chǎn)品組織進(jìn)行規(guī)模驗(yàn)證,并為大模型提供訓(xùn)練和試驗(yàn)環(huán)境?;贕PU算力與算力網(wǎng)絡(luò)等技術(shù)深度協(xié)同,項(xiàng)目成功構(gòu)建LLM訓(xùn)練集群,并提出系統(tǒng)性效能提升方案,最大化提升算力資源的使用效率,也為AI模型的訓(xùn)練和應(yīng)用提供充分支持。
為確保項(xiàng)目的成功實(shí)施及高效運(yùn)維,湖北移動(dòng)攜手新華三集團(tuán),基于新華三全場(chǎng)景的AIO智算運(yùn)維服務(wù)方案,形成了涵蓋架構(gòu)搭建、門戶管理、運(yùn)維細(xì)化、人員培訓(xùn)、技術(shù)保障、自動(dòng)化運(yùn)維、規(guī)范制定、系統(tǒng)測(cè)試、驅(qū)動(dòng)優(yōu)化、網(wǎng)絡(luò)運(yùn)維和硬件保障等全方位、高效能智算運(yùn)維服務(wù)體系。
●明確運(yùn)維架構(gòu),打造協(xié)同高效的運(yùn)維團(tuán)隊(duì)
新華三集團(tuán)與湖北移動(dòng)共同明確了由移動(dòng)集團(tuán)總部、省公司、云能力中心建立“部省專”一體化協(xié)同運(yùn)維團(tuán)隊(duì),構(gòu)建矩陣式運(yùn)維模式。新的運(yùn)維架構(gòu)設(shè)計(jì)確保了運(yùn)維工作的高效協(xié)同與精準(zhǔn)執(zhí)行,能夠快速響應(yīng)各類運(yùn)維需求,從整體上保障智算中心的穩(wěn)定運(yùn)行,為后續(xù)各項(xiàng)運(yùn)維服務(wù)的開展奠定了堅(jiān)實(shí)的組織基礎(chǔ)。
●統(tǒng)一運(yùn)維門戶,實(shí)現(xiàn)多平臺(tái)集中管理
項(xiàng)目整合移動(dòng)云 4A 管控平臺(tái)、智維平臺(tái)門戶、智算管控平臺(tái)、集團(tuán)多云平臺(tái)、運(yùn)維管理系統(tǒng)、H3C HDM 等多個(gè)門戶管理平臺(tái),實(shí)現(xiàn)了運(yùn)維管理的集中化與可視化。通過(guò)統(tǒng)一的運(yùn)維門戶,運(yùn)維人員能夠便捷地獲取各類系統(tǒng)信息,實(shí)時(shí)監(jiān)控設(shè)備狀態(tài)、資源使用情況以及業(yè)務(wù)運(yùn)行數(shù)據(jù)等,大大提高了運(yùn)維管理效率和決策科學(xué)性,使運(yùn)維工作更加有條不紊。
●規(guī)范化運(yùn)維體系賦能,全方位保障系統(tǒng)穩(wěn)定
新華三集團(tuán)依托項(xiàng)目運(yùn)維經(jīng)驗(yàn)豐富的專家資源,賦能中國(guó)移動(dòng)自有人員實(shí)踐培訓(xùn),打造專業(yè)智算運(yùn)維人才隊(duì)伍,實(shí)現(xiàn)技術(shù)疑難問(wèn)題快速閉環(huán),為后續(xù)智算中心的體系化運(yùn)維儲(chǔ)備高質(zhì)量人才;同時(shí),通過(guò)深度分析智算中心機(jī)房環(huán)境、硬件設(shè)備、資源規(guī)劃、應(yīng)急管理、故障申報(bào)處理、投訴響應(yīng)、業(yè)務(wù)支撐、客戶管理、安全管理等運(yùn)維場(chǎng)景,明確運(yùn)維管理規(guī)范,使日常管理工作有章可循、有據(jù)可依,確保整體系統(tǒng)安全穩(wěn)定、高效運(yùn)行。
從傳統(tǒng)通信機(jī)房到智能算力中樞,從設(shè)備運(yùn)維到算力服務(wù),中國(guó)移動(dòng)智算中心(武漢)的運(yùn)維服務(wù)進(jìn)化之路揭示著AI新基建的深層邏輯:以技術(shù)服務(wù)商的全棧能力為支點(diǎn),以運(yùn)營(yíng)商的場(chǎng)景資源為杠桿,共同撬動(dòng)智能計(jì)算的無(wú)限可能。
- 英國(guó)警方呼吁蘋果谷歌:共同守護(hù)被盜手機(jī),別讓云服務(wù)成為犯罪新手段
- 商務(wù)部回應(yīng)汽車行業(yè)“內(nèi)卷”:引導(dǎo)合規(guī)競(jìng)爭(zhēng),整治無(wú)序競(jìng)爭(zhēng)
- 董明珠揭秘企業(yè)誠(chéng)信:流量營(yíng)銷陷阱難長(zhǎng)久,實(shí)干精神才是長(zhǎng)久之計(jì)
- 小鵬華為聯(lián)手新科技,G7首發(fā)AR-HUD,駕駛體驗(yàn)再升級(jí)!
- WiFi萬(wàn)能鑰匙科技向善之旅:從公益WiFi到教育公益,共創(chuàng)美好未來(lái)
- 網(wǎng)絡(luò)安全困境突圍:破解三重難題,守護(hù)數(shù)字世界
- 2025年Q1互聯(lián)網(wǎng)企業(yè)業(yè)績(jī)榜揭曉:京東一騎絕塵,劉強(qiáng)東的貢獻(xiàn)成焦點(diǎn)
- 英偉達(dá)中國(guó)市場(chǎng)遭遇挑戰(zhàn):人才流失與競(jìng)爭(zhēng)壓力下的地位動(dòng)搖
- 哈啰出行披露8億用戶足跡,綠色出行與可持續(xù)發(fā)展并駕齊驅(qū)
- 英偉達(dá)破釜沉舟,百萬(wàn)美元游說(shuō)美政府打破出口限制,避免損失海量市值
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。