知識圖譜重構數(shù)據價值
通俗來講,知識圖譜就是一種以相互連接的實體和他們的屬性構成的信息組織形式。也可以說是由一條條知識組成的一個集合,每條知識表示為一個SPO(Subject-Predicate-Object)三元組。谷歌正是利用這一方式將散落在互聯(lián)網上的結構化、半結構化和非結構化信息進行組織,使計算機能夠理解人類的語言交流模式,實現(xiàn)智能交互。同樣,在銀行風險管理工作中,利用知識圖譜技術,可以在各種數(shù)據來源的信息上疊加領域知識,最后輔以各種數(shù)據可視化手段,展示目標對象的風險全景視圖,滿足風險識別、監(jiān)測等多種需要。
如圖是一個知識圖譜系統(tǒng)的基本架構:從內外部的各類數(shù)據源獲取信息,信息抽取之后經歷信息的融合和計算完成知識圖譜構建。在實際使用中,可能還會涉及知識準確性校驗等工作。
圖 知識圖譜系統(tǒng)架構
知識獲取
信息不對稱是很多風險的根源,在知識獲取階段,需要突破廣度和深度的瓶頸,盡可能做到全面、應有盡有,滿足完整性原則。銀行內部數(shù)據非常龐大,如何從中抽取業(yè)務場景所需的信息是知識獲取的關鍵。以信用風險為例,客戶的財務狀況、貸款記錄、交易行為等能準確反映其信用狀況。這些內部數(shù)據基本都以結構化的形式貯存在銀行內部的關系型數(shù)據庫中。
另外一方面,隨著整個社會電子化程度的不斷深入,能夠從外部獲取到的數(shù)據源也在逐年擴大。比如企業(yè)的工商登記、法院的案件和執(zhí)行、各類行政和環(huán)保處罰、納稅記錄等,這些數(shù)據都以各種半結構化或非結構化的形式駐留在各類機構、媒體的服務器上。銀行通過有償?shù)臄?shù)據接入或者公開渠道爬取的方式獲得這些信息。
知識融合
融合過程中需要滿足準確性原則,具體操作上存在兩個維度的融合:一方面是銀行內部數(shù)據之間;另一方面是外部數(shù)據和內部數(shù)據之間。其根本是要解決本體的一致性認定,一般采用數(shù)據映射技術或者實體匹配來進行本體融合。在具體實現(xiàn)中,通過對不一致的具體問題具體分析,有助于突破知識融合的難點。
一個比較大的不一致根源是數(shù)據標準不統(tǒng)一。對于內部數(shù)據而言,可以要求逐步統(tǒng)一數(shù)據標準,以保證后續(xù)數(shù)據的一致性。但對于大量的外部數(shù)據和內部歷史數(shù)據很難苛求,只能通過各自業(yè)務領域約定俗成的規(guī)則來進行匹配。比如企業(yè)通過組織機構代碼證,個人通過身份證號來匹配。還有一些比較復雜和耗時的,比如同名行外戶的本體識別等。
另外一個比較大的不一致來源于同一個本體在時序上的表現(xiàn)狀態(tài)差異化。比如公司更名、貸款重組等。這類不一致往往是各類風險隱患的溫床,是需要重點突破的地方,成功與否決定著最后知識應用的效果。
在解決本體一致性認定問題之后,還需要完成本體之間的顯性關系整理。這類關系整理相對容易,一般在銀行內部以關系型數(shù)據的方式留存,采用傳統(tǒng)的ETL方式即可。從貸款的擔保中整理本體之間的擔保關系,從工商注冊登記中整理出本體之間的投資、股權、分支機構和法人、任職等關系。但也有一些常識性的顯性關系反而不容易通過電子渠道獲得,比如配偶、兄弟等關系,這些就需要嚴控數(shù)據錄入源頭、提升數(shù)據采集能力。
知識計算
本文討論的問題域是銀行風險,構建的是一個特定專業(yè)領域的知識圖譜,而不是一個普適性的,因此在知識計算上應該滿足適用性原則。以風險管理領域知識和需求為出發(fā)點來進行知識重構,本質上是要挖掘出知識之間的關系,主要是非顯性的關系——隱性關系分析及深層次關系探索。在方法上,采用通用推理邏輯結合業(yè)務領域知識來發(fā)現(xiàn)隱含的知識。
利用文本分析技術,完成對輿情、案件等非結構數(shù)據的處理,構建出隱性關系。對于深層次的關系需要針對具體的問題場景制訂模型進行分析。在結構上,知識圖譜以RDF圖的形式構成,采用一些基本的圖推斷方式發(fā)現(xiàn)本體的隱含關系。同時,還可以變相地構建時空圖,分析圖譜中實體的時空影響力,構建概率圖模型推斷復雜問題場景中的隱藏因子等。
在資金流水問題場景中,通過名稱映射模型統(tǒng)一本體,在此基礎上,基于時間序列模型將獨立的交易流水匯聚成可以追溯的資金鏈路,再利用統(tǒng)計學的知識,解析出關鍵交易對手,并據此計算出本體之間的資金依賴程度。在企業(yè)控制關系問題場景中,通過圖的遍歷算法,結合業(yè)務規(guī)則,尋找出各類疑似關系。類似的還可以構建出實際擔保關系、擔保圈、一致行動人等。
對銀行而言越來越迫切需要從集團層面來關注企業(yè),而不是孤立地關注一個個的企業(yè)。但是在實際業(yè)務中,對于集團的識別卻存在較大困難。一方面,傳統(tǒng)的“人盯人”方式可以做到精細化管理,但如果要覆蓋所有企業(yè)則成本高昂;另一方面,部分企業(yè)的股權結構變化頻繁,時效性上無法獲得保障;此外,嚴重依賴于人的主觀判斷,對業(yè)務人員要求較高,容易滋生道德風險。利用知識圖譜,在知識計算過程中,通過控制溯頂和有效鏈路計算,即可有效構建集團關系族譜。
在這個問題場景中,根據給定的本體,在RDF圖上路由股權投資關系信息,在路由的過程中根據業(yè)務邏輯規(guī)則裁剪掉公眾持股、國資委等鏈路,即可找到符合業(yè)務需要的根節(jié)點。從根節(jié)點開始根據不同業(yè)務需求向下探索,刻畫出該集團下所有節(jié)點的子樹。以此構建整個集團的族譜,并可直觀獲知到目標企業(yè)的集團地位等一系列深層次知識。
知識應用
知識圖譜構建完成之后,就可以輕松地應用到全面風險管理的多個操作環(huán)節(jié)上。比如在貸款全流程中,有效控制貸款準入,提升貸款決策的有效性;在審批額度時,防止多頭授信,規(guī)避關聯(lián)企業(yè)互相擔保;在貸后監(jiān)控中,監(jiān)測資金流入關聯(lián)企業(yè),參與民間借貸;在保全過程中,可以識別企業(yè)的關聯(lián)資產,彌補損失。
在具體的工作中,我們將自動化構建出來的集團與銀行內通過客戶經理手工維護的集團進行交叉比對,梳理出一批未被納入集團統(tǒng)一授信的企業(yè),有效達到了風險防控目的。同時通過比較計算出來的集團族譜與歷史存量的集團樹,可以不斷完善和校驗知識計算的準確性。兩者可以相輔相成,互相驗證和查漏補缺。
除了通過技術手段直接將知識圖譜應用到業(yè)務管理之外,還需要一套簡潔、高效、易用的人機交互接口,供各類用戶使用。從本質上來說,谷歌搜索結果就是在提供類似的服務。簡單地應用傳統(tǒng)的界面展示技術即可完成客戶風險的整體視圖,而對于圖的展示,則需要借助一些更友好和復雜的動態(tài)交互控件。
總結展望
大數(shù)據技術的不斷發(fā)展提升了銀行數(shù)據分析和挖掘的能力,如今普適性的知識圖譜技術已經獲得了卓有成效的應用,在具體專業(yè)領域內的知識圖譜技術還有待進一步完善。在具體實施上,遵循的基本路徑一致:通過知識獲取、融合來準備數(shù)據,通過計算實現(xiàn)價值重構,應用于具體的場景以解決實際問題。
知識圖譜在風險領域的應用有著廣闊前景。從計算機的智慧化來講,最原始的是在明確的規(guī)則下,特定的問題域內實現(xiàn)計算。目前很多的業(yè)務監(jiān)控規(guī)則基本都是這一類型,解決的是人類重復勞動的問題。進一步發(fā)展到語音、圖像和視頻的識別,是一種感知的智能。最終希望實現(xiàn)人工智能,則必須要實現(xiàn)認知上的智能。要求計算機去理解、推理和解釋,需要依賴于知識圖譜??梢哉f,知識圖譜是達到最終目的地的基石。
銀行與金融科技融合的理想境界是什么?是銀行即服務。
2019年6月14日,億歐智庫研究院將在“2019丨全球新經濟年會·金融科技峰會”上發(fā)布《2019開放銀行與金融科技發(fā)展研究報告》,深度解讀金融科技賦能開放銀行的融合與落地應用——上?!ず鐦颉な蕾Q展館邀您見證!搶票鏈接:https://www.iyiou.com/post/ad/id/792
本文已標注來源和出處,版權歸原作者所有,如有侵權,請聯(lián)系我們。
- 螞蟻國際任命首席創(chuàng)新官,加速推進數(shù)字化戰(zhàn)略發(fā)展
- 馬云現(xiàn)身支付寶20周年紀念日:AI將改變一切,但不意味著決定一切
- 萬事達卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調收集虹膜數(shù)據引來歐洲監(jiān)管調查
- 華為孟晚舟最新演講:長風萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數(shù)智金融未來
- 移動支付發(fā)展超預期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財務收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費用支出
- IMF經濟學家:加密資產背后的技術可以改善支付,增進公益
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。