大模型深挖數據要素價值:算法、算力之后,存儲載體價值凸顯

文 | 智能相對論

作者 | 葉遠風

18.8萬億美元,這是市場預計2030年AI推動智能經濟可產生的價值總和,其中大模型帶來的AI能力質變無疑成為重要的推動力量。

大模型浪潮下,業(yè)界對AI發(fā)展的三駕馬車——算力、算法、數據任何一個維度的關注都到了全新的高度,避免“木桶效應”成為大模型發(fā)展首要考慮的問題。

而在這個過程中,業(yè)界對“數據”的關注,往往集中在“量”+“質”上,更龐大的數據量與更高的數據質量能推動大模型有更好的訓練與應用效果,已經成為共識。

但是,隨著大模型創(chuàng)新對數據需求越來越復雜,單單關注數據的“量”+“質”已經不夠,能夠承載數據、滿足大模型需要的存儲,同樣值得大模型領域從業(yè)者關注。

在剛剛舉辦的華為全聯接大會2023(HC 2023)上,華為方面系統(tǒng)介紹了其存儲解決方案如何解決大模型訓練與應用痛點、支撐大模型創(chuàng)新進程。

華為的動作,從數據維度全景展示了大模型發(fā)展的本質——“數據要素”大開發(fā),以及存儲創(chuàng)新如何為這種本質提供力量,幫助大模型從業(yè)者更好地掘金智能經濟時代。

大模型時代即是數據要素時代,存儲作為載體的價值彰顯

毫無疑問,大模型對算力、算法、數據的需求都在急速提高。

市場研究統(tǒng)計,過去五年,大模型參數增加2000倍,所需計算能力增加5萬倍,對數據存儲需求增加10萬倍,連帶網絡帶寬需求增加8000倍。

大開大合大需求,需要大設施、大投入。

但是,如果從創(chuàng)新的視角來看,實際上無論是算法還是算力的提供,其難度都在下降或者說收斂。

在很多企業(yè)都頭疼的算力上,雖然需要的量很大,但無非都來自于英偉達、昇騰等GPU硬件資源,是一件主要依賴成本投入的事。換句話說,只要有足夠多的預算,算力資源就能供給上來。

在算法端,雖然各大廠商不斷調優(yōu)迭代,但總體上都在采用Transformer模型基礎架構,基于Pytorch、TensorFlow、MindSpore等主流開發(fā)框架開發(fā),是逐漸收斂的。

這時候,壓力來到了數據這里。

隨著大模型深入發(fā)展,在總量上,數據需求早已從TB級躍升到PB級,需要的“池子”越來越大;而同時,對數據類型的需求又極大豐富,單一文本的模態(tài)之外,圖片、視頻、語音等多模態(tài)數據爆發(fā),數據需求越來越復雜,這些都考驗著存儲的承載力,以及如何在訓練、應用過程中更好地與算力、算法協同工作。

這期間,諸多難題出現,等待存儲攻克,主要包括:

小文件讀取性能。大模型在數據需求上以圖片文本等海量小文件為主,單臺AI服務器每秒能夠讀取2萬多張圖片,這往往會導致數據加載效率低(類似于個人PC上的復制動作,同等空間下,內含大量小文件文件夾會比單一大文件要慢很多),影響大模型的訓練效率。此時,海量小文件性能就成為瓶頸,萬億參數大模型的基礎要求已經達到1000萬IOPS。

CheckPoint斷點續(xù)訓。大模型訓練過程中出于參數調優(yōu)等各種需求,會在不特定時間點中斷形成CheckPoint,后續(xù)再啟動繼續(xù)訓練(需要時間,形成GPU資源利用的空檔)。這是一種對長時間訓練的模型非常友好的能力,但企業(yè)頻繁參數調優(yōu)往往會造成GPU利用率降低(目前業(yè)界通常平均每二天就會中斷一次,GPU利用率只有40%),需要存儲具備很強的大文件讀寫性能,才能減少GPU等待時間、提升昂貴資源利用效率。

“AI幻覺”問題。大模型輸出結果“胡編亂造”,與事實明顯沖突的現象是業(yè)界十分頭疼的問題,這種大模型自以為是的現象稱作“AI幻覺”??雌饋磉@是算法上的問題,但實際上,業(yè)界在探索中逐漸發(fā)現,它的解決需要的是在數據層面不斷“求證”(主要是參考上下文信息),本質上要求存儲能夠提供一個類似于“百科詞典”的知識體系,來作為大模型的“海馬體”提供準確的行業(yè)知識。

可以看到,在創(chuàng)新層面,解決大模型在存儲上面臨的挑戰(zhàn),可能要優(yōu)先于算力和算法。

這一點,其實也讓大模型進一步回歸到本質上,即以參數量更大的AI模型進一步挖掘數據要素的價值,推動千行百業(yè)實現轉型升級。

現在,數據要素已經作為數字經濟和信息社會的核心資源,被認為是繼土地、勞動力、資本、技術之后的又一重要生產要素,包括大模型在內的無數創(chuàng)新,都是在圍繞數據要素進行價值深度開發(fā)。

大模型的發(fā)展過程,可以看作是數據要素不斷從原始走向價值輸出的過程。

這一過程中,算法在前方引導方向、走向通用或具體行業(yè),澎湃的算力帶來強勁的推動力,而存儲則提供支撐與協同能力。當算力主要依賴成本投入、算法逐步收斂,存儲作為數據要素載體的創(chuàng)新價值就越來越凸顯。

讓數據要素價值落地,華為存儲多維度出擊解決痛點問題

如何解決存儲面臨的挑戰(zhàn),華為高性能知識庫存儲OceanStor A800產品與對應解決方案在面向行業(yè)模型訓推場景擁有全面領先的訓推效率,總體而言有四大特點:

1、極高的整體性能,匹配大模型訓練需要

華為存儲首要解決的是在整體性能上滿足大模型對訓練數據的龐大需求,尤其是對小文件讀取性能的需求。

OceanStor A800基于創(chuàng)新數控分離架構,單框IOPS能夠達到2400萬,訓練集加載效率是業(yè)界的4倍,而且可以根據客戶需求實現性能線性擴展。此外,OceanFS分布式文件系統(tǒng)實現全局均衡打散,消除了CPU瓶頸,能帶來海量小文件性能的極致提升體驗,滿足大量小文件讀取需求。

只要有性能需要,盡管“往上加”,華為存儲都“扛得住”。

2、特殊能力優(yōu)化,滿足斷點續(xù)訓等特定需要

斷點續(xù)訓等特殊情況下如何更好地提供支撐,是華為存儲在大模型訓練階段要同步應對的挑戰(zhàn)。

通過盤控協同、NFS+并行文件系統(tǒng),華為存儲實現了單框500GB/s超高帶寬,能夠做到CheckPoint的超快恢復,斷點續(xù)訓恢復速度是業(yè)界3倍,TB級CheckPoint讀寫實現從小時級到分鐘級的跨越(即萬億參數大模型平均恢復時間小時級提速到分鐘級),減少昂貴的GPU等待。

只要是優(yōu)化大模型需要的,客戶都能夠更加大膽地進行參數調優(yōu)等操作。

除此之外,其管控面擁有資源分區(qū)+統(tǒng)一調度能力,還能夠讓存儲適合不同的業(yè)務模型。

不管客戶面向什么業(yè)務模型進行開發(fā),不管客戶在過程中選擇在什么時候暫停,華為存儲都能更好地應對。

3、響應能力強化,滿足大模型應用的實時需求

訓練階段完成后,華為存儲要做的,是在應用階段滿足嚴苛的數據響應需要。

目前,在大模型應用階段,得益于內置了向量知識庫(以向量的形式儲存行業(yè)知識),華為存儲的QPS達到了25萬+,已經能夠實現毫秒級響應,一方面能夠加速推理,使得應用過程中的GPU資源消耗大大減少,有效節(jié)約了落地成本——當前很多大模型在開放應用階段的資源消耗十分巨大,有些企業(yè)已經不堪重負;另一方面“百科詞典”使得大模型更具準確的行業(yè)知識,對減少AI幻覺產生起到重要的支撐作用,能大大提升推理的精度。

4、架構創(chuàng)新,保障整體系統(tǒng)的穩(wěn)定可靠

對存儲最后一個也是最基本的要求是,無論具備什么樣的特性,都要保證穩(wěn)定可靠的整體結構,不發(fā)生安全問題、不“掉鏈子”。

華為存儲解決一系列大模型數據痛點需求的過程,某種程度上也增加了存儲方案與體系的復雜性,但與此同時,華為并沒有犧牲系統(tǒng)的可靠性,其創(chuàng)新的全互聯AA架構,能夠實現5層全方位保護與6個9的超高可靠。

由此,大模型的數據可靠性及訓練穩(wěn)定性實現了端到端的保障。

造輪者,先行久遠路途

華為存儲能夠解決大模型數據痛點問題,根源在于其長期以來在存儲上的創(chuàng)新探索。

OceanStor A800的數控分離架構,就利用了業(yè)界前沿的數據讀寫直通到盤的技術創(chuàng)新,讓數據面直通到盤,與控制面分離,實現IO直通,從而減少數據讀寫時CPU的運算,大大提升存儲性能。

實際上,華為長期以來在存儲上進行技術耕耘,已經取得了頗多類似的前沿創(chuàng)新成果。

目前,華為OceanStor存儲在全球擁有12個研發(fā)中心、4000+研發(fā)人員、3000+專利,產品涉足高性能NAS存儲解決方案、存儲防勒索解決方案、容器存儲解決方案、數據中心虛擬化等多個領域,獲得了廣泛好評。

在全球150多個國家,華為存儲已經服務了包括運營商、金融、政府、能源、醫(yī)療、制造、交通等行業(yè)在內的25000+客戶。

可以說,為數據要素價值開發(fā)、為大模型創(chuàng)新需求量身定制的存儲能力,是華為長期以來在存儲賽道上深耕的必然結果——華為存儲早已做好了為眾多領域數據需求(不只有大模型)提供強大承載力與協同力的準備。

*本文圖片均來源于網絡

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2023-09-27
大模型深挖數據要素價值:算法、算力之后,存儲載體價值凸顯
大模型深挖數據要素價值:算法、算力之后,存儲載體價值凸顯

長按掃碼 閱讀全文