指標+AI+BI,袋鼠云構建智能數據分析新范式

10月30日,袋鼠云成功舉辦了以“AI驅動,數智未來”為主題的2024年秋季發(fā)布會。大會深度探討了如何憑借 AI 實現新的飛躍,重塑企業(yè)的經營管理方式,加速數智化進程。

作為大會的重要環(huán)節(jié)之一,袋鼠云數棧產品經理潮汐帶來了題為《指標+AI+BI:構建數據分析新范式》的精彩演講,深入剖析了當前企業(yè)在進行數據分析時所面臨的挑戰(zhàn),并分享了袋鼠云數棧在此領域內的最新成果和解決方案。(演講課件http://m.intimacywithspirit.com/uploadfile/pic2020/2024/1105/2024110510200152G style="text-align: center;">傳統(tǒng)數據分析方案的局限性

會議伊始,潮汐首先回顧了傳統(tǒng)數據分析方案的架構。傳統(tǒng)方案通常采用“數倉+BI”的方式,即業(yè)務方提出數據需求后,經過數據產品經理的分析和排期,由數據開發(fā)人員將數據從業(yè)務系統(tǒng)中統(tǒng)一抽取到數倉進行分層加工。加工后的表吐出到業(yè)務庫,由BI分析師在BI工具中進行數據接入、數據模型搭建,并基于這些模型通過組件配置和分析交互設置形成數據報表。最終,業(yè)務方可以直接通過這些報表共享或嵌入到業(yè)務系統(tǒng)中來進行數據分析與監(jiān)控。

然而,這種模式存在幾個顯著的問題:

高成本與長周期:BI工具往往具有一定的上手門檻,對于不熟悉技術或工具的業(yè)務用戶來說,很難深入使用。復雜的分析任務嚴重依賴于數據開發(fā)人員和分析師的專業(yè)技能,導致需求交付時間周期長,溝通調整的成本也隨之增加。

數據一致性難以保證:傳統(tǒng)的BI工具是一個封閉且中心化的平臺,其中的數據模型定義(包括度量和維度)與其他數據應用之間缺乏互通性。所有數據分析活動都必須在這個平臺上完成,這造成了跨應用分析時指標管理不統(tǒng)一、口徑不一致以及流程不規(guī)范的問題。雖然很多企業(yè)在數倉層面實現了統(tǒng)一的數據管理和開發(fā),但在應用層面仍然面臨著“煙囪式”開發(fā)的困境。

靈活性不足:基于傳統(tǒng)BI工具的數據分析很大程度上依賴于分析師在創(chuàng)建報表時預先設定好的圖表類型、交互方式及分析配置。這意味著,在不同場景下分析數據波動的原因時往往沒有辦法直觀快速地得到結論。

因此,當前的市場環(huán)境下,企業(yè)需要一種更高效、低成本的數據分析方案。

指標+AI,賦能數據分析

針對上述痛點,潮汐介紹了當前較為流行且有效的解決方案:在數倉和BI中間架設配備AI能力的指標層。

數倉處理后的數據在指標層進行統(tǒng)一的數據模型構建,生成原子指標、派生指標、復合指標和衍生指標。這些指標成為后續(xù)包括BI在內的所有上層數據應用的基礎?;谶@種架構,數據分析不僅兼容傳統(tǒng)BI工具,還衍生出更智能靈活的方式,如指標數據智能問答和將指標封裝成API對業(yè)務系統(tǒng)提供即時數據分析服務(即Headless BI)。這樣的架構總共有四個方面的優(yōu)點:

縮短開發(fā)鏈路:指標體系消除了數據結果的二義性問題,不同業(yè)務使用同一指標時無需重復開發(fā)或校對口徑,從而大大縮短了整體開發(fā)鏈路。

輕量級數據分析:通過指標API,可以將數據分析結果輕松集成到任意業(yè)務系統(tǒng)中,使業(yè)務端能夠以輕量級方式實現個性化的數據分析。

實現快速決策:在AI的輔助下結合行業(yè)和企業(yè)知識庫可以對數據異常情況進行快速精準的定位,幫助業(yè)務方縮短問題排查鏈路,加速決策過程。

低門檻使用:Headless BI幾乎零門檻,適用于大多數不太復雜的分析場景,讓業(yè)務方能夠主動愿意形成業(yè)務分析與數據決策的習慣,讓數據價值更加普及。

從指標設計到數據分析實踐全流程

從對新數據分析方案的架構及優(yōu)勢分析中,可以看出指標體系的搭建是其中最為關鍵的一環(huán)。袋鼠云之前接觸到的很多企業(yè)客戶其實都已經做過指標體系搭建的嘗試,但是實踐下來碰到很多問題,如指標管理成本高、重復建設、流程不規(guī)范等。

針對這些問題,袋鼠云數棧提出了完整的解決方案,基于該解決方案,企業(yè)可以構建一套從規(guī)范建立到數據分析應用的完整流程。

01 指標管理規(guī)范的建立

首先,在企業(yè)內部需構建指標管理與加工的流程制度及組織規(guī)范,指標管理規(guī)范主要包括指標生命周期管理、指標層次與分類管理、指標定義標準化及指標使用管理規(guī)范。

指標全生命周期需要確保從業(yè)務方提出需求開始,到指標下線的全過程得到有效管控,整個流程每個環(huán)節(jié)需要定義好輸入輸出物和負責人員。

接下來是指標層次與分類管理,根據企業(yè)戰(zhàn)略目標、組織及業(yè)務進行自上而下的指標分級,可以分為三個等級,指標類型可以按加工方式和程度分為原子指標、派生指標、衍生指標、復合指標和自定義指標,通過多種類型指標的定義,構建起有序的指標體系。

然后是指標元數據的定義,指標元數據一般包括指標名稱、編碼、所屬業(yè)務目錄、計算頻度、計量單位、負責人、業(yè)務口徑等信息,定義好每種元數據的填寫要求規(guī)范,發(fā)布前專人審核確保不出現定義內容不準確或不清晰的情況。

最后是指標使用管理,設置公司內指標共享和權限管理機制,讓指標的使用更加合規(guī)安全。

02 指標開發(fā)

在建立規(guī)范后,我們來關注指標的開發(fā)過程。

首先是業(yè)務分析。指標管理方要在了解業(yè)務的基礎上分析需求、拆解指標主題和分類。以零售行業(yè)為例,其數據圍繞人、貨、場展開,通過調研人員、盤點場景,可劃分員工銷售、采購庫存、采購供應商等主題,在這些主題下再細分指標,如員工管理主題下有員工流失率、成效率,銷售價格體系中有銷售金額、銷售利潤,由此梳理出存量指標和指標缺口。

指標缺口確定后,開發(fā)人員開始工作。比如開發(fā)統(tǒng)計各城市在微信和支付寶近 7 日電商業(yè)務銷售金額的指標時,先創(chuàng)建電商訂單數據模型,找到主表訂單表及關聯(lián)表,生成電商業(yè)務銷售明細原子指標(計算邏輯是訂單金額求和,存于電商產品目錄下),再由此生成各城市電商銷售額派生指標(派生維度為城市和商品類型、時間維度為近 7 天、業(yè)務限定為微信和支付寶渠道),配置好離線任務的調度周期和上游依賴,指標數據就可定時產出。

03 指標應用

指標完成開發(fā)及數據產出后就到了最關鍵的一環(huán)——指標的應用。袋鼠云指標管理平臺已將 AI 深度融入指標多方面多層次的應用中。在介紹應用前,先看 AI 基礎能力是如何搭建的。數棧有自己的AI平臺,負責所有產品模塊中AI能力的搭建,AI 平臺支持多種主流大模型部署,并對接行業(yè)和企業(yè)知識庫,結合指標平臺業(yè)務庫的指標屬性、指標血源等元數據構成了大模型的數據基礎,然后我們就可以在AI平臺上搭建應用工作流,來定制指標AI應用。

目前主要實現的是基于自然語言的指標搜索、自然語言轉化SQL進行自助取數、指標異常歸因分析以及指標智能問答及圖表分析這4個方面。

一是智能分析。可以在指標取數模塊中輸入自然語言,如 “查詢近 10 天用戶對各等級產品的支付金額和支付訂單數,支付金額≥15”,平臺調 AI 接口解析轉換為取數規(guī)則,執(zhí)行后可得結果表,用戶可下載分析。在指標看板頁面,可以按業(yè)務主題新建看板,輸入自然語言描述想看到的指標內容,平臺經過分析就可以自動生成預制格式的圖表,然后在預生成的圖表上進行微調得到一張完整的看板,從而縮短看板配置時間。

二是歸因分析。基于指標目標樹或看板異常數據,可層層挖掘異常根因并制訂策略。如公司收入下滑,從指標樹層層展開發(fā)現是銷售額下滑的原因,7 月數據下降明顯,進一步下鉆得到7 月第二周到第三周波動異常,平臺結合商品類型、城市和渠道維度計算歸因值,發(fā)現商品類型的關聯(lián)值較大,對商品類型中的值進行分析看到手機類銷售額下滑比較明顯,結合市場情況可知競品友商活動影響。

三是智能搜索及對話式指標分析 ChatBI。在指標的智能問答界面用戶可以用自然語言進行指標搜索,智能助理會根據你的描述給出最匹配的指標清單以及每個指標的基礎信息,點擊指標可查看關鍵數據,對異常點進一步分析可得到原因和關聯(lián)指標排查方向。這種以用戶問題為導向,圍繞問題給出答案,并進行關鍵因素分析和引導的數據分析方式,與傳統(tǒng)讓用戶在預制報表里自行尋找答案的方式相比,無疑能夠大幅縮短問題排查路徑,使問題的解決更加聚焦、高效。

某銀行指標管理分析實踐案例

某大型銀行在購買數棧指標平臺前,已經進行了指標體系的梳理和搭建,但在實際應用中遇到了以下幾個主要問題:

指標定義不一致:不同業(yè)務線存在很多指標名稱相同但定義不同的情況。例如,“一般性存款”指標在監(jiān)管口徑中不包括財政性存款,但在人行口徑中則包括;績效考核中不包含保險公司存放款項,而人行口徑則包含。這導致了數據解釋和應用上的混亂。

指標重復構建:多個金融業(yè)務中存在相同的指標重復構建,如“客戶人行征信指標”在零售金融、公司金融和普惠金融業(yè)務中都有獨立構建,沒有實現共享,導致資源浪費。

指標應用薄弱:指標構建后主要用于基本信息和口徑的檢索,沒有進一步應用于更深層次的數據分析和決策支持。

針對客戶梳理出適用于全行的新指標體系,徹底消除指標的多義性,實現指標在全域范圍內的合規(guī)共享,并全面加強指標的應用建設的需求,袋鼠云為其量身定制了一套建設方案。

首先,將底層的存貸、風控等業(yè)務數據統(tǒng)一抽取到數棧平臺,在此基礎上進行離線和實時的加工處理,從而構建出基礎數倉。接著,借助 Trino 引擎開展指標計算,經過分類分層的精細操作,得到不同業(yè)務的原子、派生、復合等各類指標,以這些指標為基石,在業(yè)績考核、風險監(jiān)管、企業(yè)存貸等指標體系中形成可以充分共享的指標目錄。

在這個完備的指標體系之上,進一步開展一系列基于指標的深度應用建設,包括智能取數、指標看板的自動生成與歸因分析、智能問題的智能問答、目標管理以及指標 API 的構建。

經過一年的落地實施,客戶指標管理取得了顯著成效:

全行 80 家分行中的 5000 + 指標得到了重新改造,個人銀行與公司銀行業(yè)務的指標實現了統(tǒng)一編目和標準化管理。

依據指標開發(fā)規(guī)范,利用指標相似度分析對 1100 多個指標進行了治理,有效減少了多義性情況的發(fā)生。

同時,在嚴格的數據安全管理規(guī)范下,對公考核、普惠金融、基金理財代銷等業(yè)務的指標共享使用十分活躍。

基于指標的智能數據分析應用,使得開發(fā)人員在企業(yè)信貸、投行、理財等業(yè)務中能夠迅速完成數據的分析工作,并快速做出決策,大大提升了銀行業(yè)務的整體效能。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )