將人工智能整合到傳統(tǒng)數(shù)據(jù)中心有多復(fù)雜?

將人工智能整合到傳統(tǒng)數(shù)據(jù)中心有多復(fù)雜?

將人工智能(AI)技術(shù)整合到傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施中是一項極具挑戰(zhàn)性的任務(wù)。隨著AI工作負載需求的不斷攀升,數(shù)據(jù)中心面臨著諸多難題,其中最為突出的便是熱量與負載的顯著增加。這不僅要求配備先進的冷卻系統(tǒng)來應(yīng)對額外的熱量,還需對數(shù)據(jù)中心的結(jié)構(gòu)進行調(diào)整,并大幅提升電力容量,以確保整個系統(tǒng)的穩(wěn)定運行。

在當前形勢下,各種規(guī)模的數(shù)據(jù)中心都在積極將其基礎(chǔ)設(shè)施向先進的AI服務(wù)器整合。然而,傳統(tǒng)數(shù)據(jù)中心在設(shè)計之初并未考慮到要處理如此大幅增加的服務(wù)器負載與熱量,這使得AI的整合過程變得異常復(fù)雜。實際上,AI集成所需的專門設(shè)計與超大規(guī)模數(shù)據(jù)中心所采用的設(shè)計有諸多相似之處,而超大規(guī)模數(shù)據(jù)中心同樣面臨著高負載的嚴峻挑戰(zhàn)。AI服務(wù)器處理速度的提升以及對它們?nèi)找嬖鲩L的需求,導(dǎo)致處理器產(chǎn)生的熱量遠超傳統(tǒng)冷卻系統(tǒng)在傳統(tǒng)數(shù)據(jù)中心中的散熱能力,這就迫使冷卻系統(tǒng)必須不斷進化,以跟上溫度升高的步伐。這一進化過程涉及到基礎(chǔ)設(shè)施和設(shè)計的諸多變更,包括地板負載、機柜空間、機架密度和電力管理等方面,同時還需要集成液冷系統(tǒng)。

地板負載與機柜

早期的機架柜尺寸為24英寸(610毫米)見方,重量大約在250磅(113千克)左右。在大多數(shù)情況下,建筑樓板在通過提升式訪問地板承載負載時能夠承受這種重量。但隨著人工智能服務(wù)器的不斷進步與整合,機柜的重量和尺寸都有了顯著增加。如今,現(xiàn)代機柜的承載能力已達到2,500-3,000磅(1,134-1,361千克)。如此之重的機柜,可能已經(jīng)超出了大多數(shù)新建建筑的樓板評級所能承受的范圍。

為了應(yīng)對這種情況,管理員需要對機柜進行更換或加固,以確保能夠支撐AI服務(wù)器增加的重量。這需要對機柜的尺寸和重量、服務(wù)器機架的數(shù)量、通道設(shè)計、冷卻系統(tǒng)以及活動地板的承重能力等進行綜合評估,而這些因素又會因樓層高度和設(shè)備放置位置的不同而有所差異。特別深的機柜往往難以適應(yīng)現(xiàn)有的排間距,從而給布局帶來了極大的挑戰(zhàn)。值得慶幸的是,IBM提供了一個地板負載計算器,可以方便地估算設(shè)備的地板負載值,為管理員在進行相關(guān)決策時提供有力的數(shù)據(jù)支持。

電力供應(yīng)

標準的數(shù)據(jù)中心機柜通常包含42個機架單元,而最常見的機架配置功率范圍在100千瓦到150千瓦之間。傳統(tǒng)的數(shù)據(jù)中心設(shè)計主要是基于5千瓦到10千瓦的機架密度。然而,AI服務(wù)器集成則需要至少50千瓦的機架密度。在這種情況下,傳統(tǒng)的交流電路和布線已無法高效地為更大的AI陣列提供所需的電流。除此之外,傳統(tǒng)的電源線、插頭和插座也未針對AI服務(wù)器機柜內(nèi)的高溫環(huán)境進行評級,這無疑增加了電力供應(yīng)系統(tǒng)的風(fēng)險。

目前,許多AI平臺已經(jīng)標準化為400伏直流電,這就需要特殊的電源和集成的電力分配總線。管理員必須聘請專業(yè)的專家,將所有電力整合到包含計算機架的機柜復(fù)雜結(jié)構(gòu)中,并安裝電力總線來管理在地板上升起的電力分配。通過這種方式,不僅可以提高氣流效率,還能提升冷卻效果,從而更好地滿足AI服務(wù)器的運行需求。

在電力饋線方面,其中的電路額定值僅適用于一個AI計算集群平臺,這可能是傳統(tǒng)數(shù)據(jù)中心中最常見的配置。對于更大規(guī)模的安裝,通常會使用更高的電壓,并且所有電力都應(yīng)具備冗余性,以確保系統(tǒng)的穩(wěn)定性和可靠性。穩(wěn)定的不間斷電源(UPS)能源對于全天以100%容量運行的AI基礎(chǔ)設(shè)施至關(guān)重要。因此,管理員必須對增加的電力需求進行全面評估,以整合和維持AI服務(wù)器操作,并及時更新電氣系統(tǒng),使其能夠滿足能源需求。同時,還應(yīng)評估備用發(fā)電機并進行必要的升級,以確保備用系統(tǒng)能夠處理增加的能源消耗,從而有效減少停機時間,保障數(shù)據(jù)中心的正常運行。

冷卻系統(tǒng)

許多AI服務(wù)器支持直接到芯片的液體冷卻回路,這些回路專門用于冷卻處理器。直接到芯片的冷卻系統(tǒng)能夠承擔高達75%的熱負荷,而傳統(tǒng)的冷卻系統(tǒng)則負責(zé)處理剩余的熱負荷。例如,如果一個60千瓦的機柜需要25%的補充空氣,那么就需要15千瓦的空氣冷卻,這在設(shè)計良好的數(shù)據(jù)中心冷卻設(shè)備的容量范圍內(nèi)是可以實現(xiàn)的。然而,一個150千瓦的機柜則需要30千瓦到45千瓦的空氣冷卻,這已經(jīng)超出了大多數(shù)傳統(tǒng)空氣系統(tǒng)的備用容量。而對于一個250千瓦的安裝,可能需要50千瓦到75千瓦甚至更多的空氣冷卻,在大規(guī)模數(shù)據(jù)中心中,雖然這種需求是可行的,但對冷卻系統(tǒng)的壓力和要求也相應(yīng)大幅提高。

冷卻系統(tǒng)必須能夠提供全天候的服務(wù),并具備冗余性和極高的可靠性,這是確保數(shù)據(jù)中心穩(wěn)定運行的關(guān)鍵因素之一。有效的冷卻系統(tǒng)設(shè)計在很大程度上取決于數(shù)據(jù)中心所處的地理位置和環(huán)境條件。例如,在炎熱干燥的氣候條件下,蒸發(fā)冷卻或使用單獨的冷卻塔可能是最佳選擇;而在水資源稀缺或涼爽的氣候環(huán)境中,干冷卻是更為合適的選擇。

向計算設(shè)備分配水時,需要使用冷卻液分配單元(CDU)。這些專用的熱交換器能夠?qū)⒔ㄖ锏脑O(shè)施水供應(yīng)與機柜的技術(shù)水供應(yīng)有效連接起來。直接冷卻芯片采用微通道技術(shù),但這也存在一定的風(fēng)險,可能會被污染的水堵塞。而CDU則能夠徹底過濾和處理設(shè)施的水供應(yīng),從而避免這一問題。小型CDU可以安裝在機架上,方便靈活;大型CDU則配有平衡閥,能夠連接具有不同流量和壓力要求的設(shè)備,以滿足多樣化的冷卻需求。

此外,還有一種替代冷卻方法是使用需要冷卻水的主動式機柜門冷卻器。主動式門冷卻器雖然會消耗一定的風(fēng)扇功率,但通常比大型空氣冷卻裝置更節(jié)能。這種冷卻方式使得集成芯片和風(fēng)冷機柜成為可能,為數(shù)據(jù)中心的冷卻方案提供了更多的選擇和靈活性,有助于優(yōu)化整體的冷卻效果和能源利用效率。

綜上所述,將人工智能整合到傳統(tǒng)數(shù)據(jù)中心是一個復(fù)雜而艱巨的任務(wù),涉及到多個方面的重大調(diào)整和升級。數(shù)據(jù)中心的管理者和相關(guān)技術(shù)人員需要充分認識到這些挑戰(zhàn),并采取有效的措施來應(yīng)對,以確保數(shù)據(jù)中心能夠順利地適應(yīng)人工智能時代的發(fā)展需求,實現(xiàn)高效、穩(wěn)定和可靠的運行。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-05-12
將人工智能整合到傳統(tǒng)數(shù)據(jù)中心有多復(fù)雜?
將人工智能(AI)技術(shù)整合到傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施中是一項極具挑戰(zhàn)性的任務(wù)。隨著AI工作負載需求的不斷攀升,數(shù)據(jù)中心面臨著諸多難題,其中最為突出的便是熱量與負載的顯著增加。

長按掃碼 閱讀全文