華為云FusionInsight智能數據湖版本新能力解讀

9月23日至25日,華為全聯接2021以“深耕數字化”為主題,各行業(yè)領軍人物分享最新成果與實踐。其中在“華為云FusionInsight智能數據湖打造千行百業(yè)數據底座”專題演講中,華為云FusionInsight技術專家,發(fā)表“華為云FusionInsight智能數據湖版本新能力解讀”演講。

  進入智能數據時代,業(yè)界建設數據湖的十大共識

華為云FusionInsight智能數據湖版本新能力解讀

經過數十年的快速發(fā)展,大數據處理技術已日漸成熟,圍繞數據湖衍生技術多如繁星,業(yè)界在多年的探索之中,也對未來數據湖形態(tài)有了十個重要共識,如充分利用云技術實現云原生的數據分析,支持混合云及多云部署,各種類型的數據、支持更多的數據用戶類型,提供不同的數據引擎、不同的數據處理能力等,這些需求對大數據技術創(chuàng)新提出了諸多挑戰(zhàn)。

面對這些挑戰(zhàn),華為云FusionInsight發(fā)布智能數據湖最新版本8.1.0去應對新時代對大數據的這些技術訴求。

華為云FusionInsight提供湖倉一體的解決方案,兼顧歷史與未來

華為云FusionInisght智能數據湖為企業(yè)客戶提供完整的大數據云服務產品組合,有單集群最大支持5W節(jié)點的云原生數據湖MRS服務和全球最大的商用部署的云數據倉庫DWS服務,MRS和DWS既可以靈活按需部署,也可以融合演進到湖倉一體的架構;同時面向不斷增長的數據探索分析、新型的圖分析、可信計算等訴求,提供了完全托管式的DLI數據湖探索服務,完全自研的高性能一體化的GES圖計算服務、創(chuàng)新的可信智能計算服務TICS,并提供源自華為自身數字化轉型經驗沉淀的DGC數據湖治理中心服務,用于海量數據的數據治理、離線分析、實時分析、數倉集市、多模分析等場景,幫助客戶構建一站式的大數據分析平臺,釋放企業(yè)數據價值。

華為云FusionInsight智能數據湖版本新能力解讀

MRS云原生數據湖提供三湖一集市能力,讓數據分析更敏捷

MRS云原生數據湖作為FusionInsight主打的云服務,是一款Lakehouse架構的云原生數據湖服務,解決傳統大數據平臺零散式建設、供數鏈路長、人工搬遷慢等問題,一個架構實現離線、實時、邏輯三種數據湖:

• 離線數據湖:提供交互式、BI、AI等多個計算引擎,基于云原生存儲實現存算分離架構,使得云原生數據湖的架構更靈活,業(yè)務更敏捷。同時還支持單集群5萬(通過集群聯邦,支持10萬+規(guī)模)節(jié)點的超大規(guī)模,支持集群滾動升級,保障關鍵業(yè)務升級不中斷。

• 實時數據湖:提供生成數據CDL實時捕獲入湖、Hudi數據湖存儲引擎、ClickHouse毫秒級OLAP分析等構建實時更新處理能力,使得供數時效從T+1到T+0。

• 邏輯數據湖:HetuEngine提供跨湖、跨倉、跨云的協同分析,實現湖倉一體,減少80%數據搬遷,協同分析提效50倍。

MRS云原生數據湖實現數據全鏈路實時分析,價值兌現從T+1走向T+0

在華為云FusionInsight 8.1.0 新版本中,MRS云原生數據湖實現了數據全鏈路實時分析,讓價值兌現從T+1走向T+0。傳統方案從數據接入、數據入湖到數據入湖,不支持增量數據更新,數據處理采用離線批處理方式,數據分析則需提前制定各種CUBE,預聚合的方式費時費力,導致數據分析時效性T+1,無法滿足新時代的業(yè)務訴求。

為解決上述問題,MRS云原生數據湖通過創(chuàng)新的CDL組件支持直接讀取Binlog日志實時入湖,結合Flink/Spark實現數據實時合并、實時加工,打通信息生產到分析平臺的最后一公里;通過引入Hudi,支持數據更新、數據刪除,還有ACID能力,保證數據實時入湖更新操作;通過引入ClickHouse,可以把數據拉到一個大寬表內去做分析,只需要對接后端的BI工具,就可以自助式的完成報表開發(fā)。同時,ClickHouse支持實時OLAP,可實現毫秒級實時分析,且ClickHouse不需要建Cube,只要對接BI工具就能輕松完成新業(yè)務的開發(fā)。

MRS云原生數據湖通過CDL+Hudi+Clickhouse的新方案,實現全鏈路實時分析,快速構筑實時數據湖能力。

IoTDB工業(yè)物聯網時序數據庫,云邊端協同輕松構建時序數據集市

MRS云原生數據湖提供一架構三湖能力的同時,還支持構建多模態(tài)數據集市,在新版本中引入了MRS IoTDB工業(yè)物聯網時序數據庫,實現云邊端協同輕松構建時序數據集市。MRS IoTDB是由華為云FusionInsight團隊與是清華大學共同開發(fā),聚焦工業(yè)物聯網領域的工業(yè)復雜時序數據的處理,如千萬級超大規(guī)模測點處理、亂序處理、多序列對齊、序列分割、子序列匹配、旋轉門壓縮、降采樣存儲等專業(yè)時序需求,解決通用數據庫在超大規(guī)模復雜時序場景的功能短板和性能瓶頸,高效管理海量工業(yè)物聯網數據,形成跨越端、邊、云的工業(yè)物聯網大數據的利器,在海量時序數據處理場景發(fā)揮其“專、快、穩(wěn)、省、易”能力。在實際應用落地中,一臺IoTDB實例就能替代13臺傳統時序數據庫,性能優(yōu)勢明顯。

災備:兩地三中心高可用,確保業(yè)務連續(xù)性,SLA 99.999%

在增強數據湖平臺全鏈路實時分析與工業(yè)物聯網數據庫能力的基礎上,MRS云原生數據湖在數據可靠性上再次進行增強,提供了三個容災方案:

提供原有的數據備份能力,支持將關鍵數據備份到異地中,一旦出現集群故障導致數據丟失,則可以將備份數據恢復回來。

新增了單集群跨AZ高可用方案:支持將一個集群部署在多個機房中,通過副本放置策略確保數據副本存放在不同的機房,通過YARN的任務調度機制的優(yōu)化確保任務優(yōu)先訪問任務所在機房的數據副本,當一個機房出現故障后,任務會自動切換到其他機房的機器上,從而確保單AZ故障時數據不丟失,關鍵業(yè)務不中斷。

同時,還新增了異地主備容災方案:也就是分別建設主、備兩個MRS集群,主集群數據會周期或實時自動同步到備集群上。當主集群故障時,將業(yè)務倒換到備集群上,確保業(yè)務快速恢復。

通過以上三種方案,MRS云原生數據湖可以實現從簡單的數據備份到跨AZ高可用,到異地容災的完整場景覆蓋,業(yè)務可以根據自身業(yè)務特點以及需要應對的故障場景,靈活選擇適合自己的方案。

DWS:新一代全場景云數據倉庫

華為云FusionInsight智能數據湖另一主打云服務為DWS云數據倉庫,它是一款具備分析及混合負載能力的云數據倉庫服務,具有高性能、高擴展、高可用等特點,廣泛應用于汽車、制造、零售、互聯網、金融、政府、電信等行業(yè)的核心分析決策系統。它不僅僅是把數倉搬上云這么簡單,而是真正面向未來的云原生架構的數倉服務。

作為全球最大的金融數倉,DWS通過了信通院單集群2048節(jié)點的規(guī)模認證,當前已經商用的最大集群有480個節(jié)點。

DWS通過一套內核一套架構同時支持標準數倉、實時數倉和云數倉,匹配了用戶全場景需求。

DGC:一站式數據開發(fā)與治理,讓開發(fā)者輕松駕馭數據

華為云FusionInsight智能數據湖不僅為政企客戶提供湖倉一體的架構,還有DGC數據湖治理中心服務,提供一站式數據開發(fā)集成管理平臺,提供統一的數據治理工具,加速數據資產沉淀。

DGC的特性主要集中在平臺能力和生態(tài)兩個方面:

在平臺能力方面:DGC提供一站式數據開發(fā)集成管理平臺,支持40多種異構數據源、全拖拽式開發(fā)、多維實時搜索、0代碼API開發(fā)等能力;并提供基于華為10多年數據治理經驗沉淀出的數據架構、標準規(guī)范、數據開發(fā)、數據質量等數據治理能力;

在生態(tài)建設方面:DGC通過開放API,使能行業(yè) ISV 快速集成開發(fā);通過合作伙伴提供數據標準、模型、指標、接口等行業(yè)數據模型,幫助企業(yè)快速構筑數據治理能力。

華為云FusionInsight深耕大數據10年+,持續(xù)創(chuàng)新引領大數據技術發(fā)展

華為云FusionInsight持續(xù)投入10年+,堅持開放路線,在扎根社區(qū)的同時,也積極回饋社區(qū),為行業(yè)新技術發(fā)展貢獻力量;同時,華為云FusionInsight智能數據湖將持續(xù)貫徹“平臺+生態(tài)”戰(zhàn)略,攜手800+合作伙伴,服務于全球60+國家和地區(qū)3000+政企客戶,已廣泛應用于政府、金融、運營商、大企業(yè)等行業(yè)。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )