五礦期貨:悅數圖數據庫在金融期貨行業的應用與實踐探索
本文整理自 五礦集團-五礦期貨有限公司副總經理-張劍鋒 在 NUC 2022 年度用戶大會上的分享。
大家好,我是五礦期貨的張劍鋒。今天十分感謝悅數科技能夠提供這個跟各位專家,還有行業技術大拿們當面學習和交流的機會。
首先介紹一下期貨行業。在中國的六大金融行業里面,銀行,保險,還有信托,是銀保監會體系下的,俗稱大金融行業。期貨行業屬于證監會管轄下,有證券期貨和基金,屬于小金融行業。
我們這個行業有三大主要的功能:發現價格,管理風險,還有配置資源。發現價格重點給大家介紹一下,因為期貨市場的參與者眾多,除了有生產者、貿易商,還有我們消費者,以及市場上大量的投機者。因為有這樣不同類型的大量的交易者在期貨市場上通過多空博弈產生出來一個價格,是相對客觀和真實的,所以可以用于指導這些產業客戶和實體經濟相關參與者安排自己的生產和經營活動。
期貨行業最主要的作用是服務實體經濟和產業客戶,所以我們這個行業的特點也是和實體經濟掛鉤會比較緊密。這幾年才興起的像保險+期貨、鄉村振興、場外期權等等都是直接服務產業客戶的業務模式。
下面介紹下五礦期貨的一些情況。 五礦期貨是中國五礦集團旗下的金融企業,五礦集團是 16 年五礦集團和中冶集團兩家世界 500 強企業戰略性重組,最新的世界 500 強排名是 58位。五礦集團是國家的金屬資源領域的冶金建設國家隊,我們的控股股東是五礦資本有限公司,是 A 股的上市公司,也是隸屬五礦集團的,然后我們也是一個 A 股市場稀缺的全牌照的金融控股公司。
知識圖譜的價值
關于知識圖譜的價值,我來談一下我們的理解。
因為期貨行業是一個信息高度密集的行業,我們日常的經營過程中會產生大量的結構化數據,數據類型也很多。除了像各種的客戶的交易數據,還有一些像客戶行為埋點數據、用戶事件數據等等。同時還有很多非結構化的數據, 像各類研究報告,新聞資訊。
另外,由于監管對我們業務有特殊要求,比如客戶開通特定品種要求的雙錄等會產生大量的音頻視頻數據,所以(擁有)大量多維的、多類型的數據是期貨投資行業的一個特點。我們認為利用知識圖譜能夠實現數據的匯集和治理、知識挖掘和應用,以及輔助業務分析和決策。
另外,期貨行業也是知識密集型行業,因為期貨行業的業務規則很復雜還會經常變化,所以如何把知識沉淀到公司,作為公司知識的傳承,還有在知識基礎上做相應的智能化的應用都是非常重要的,所以我們認為知識圖譜在我們這個行業會有很大的作用和意義。
知識圖譜的優點
從技術方面,知識圖譜的優點大概有四個方面——
第一,靈活的多維數據疊加
孤島的數據其實是沒有太多意義,也不利于數據的挖掘和分析。而圖結構比較靈活,通過圖的點面關系,可以把有價值的多維數據疊加和連接在一起,會有更大的意義。
第二,依托經驗分析可解釋
因為在圖譜上模型設計和決策,它的計算路徑和過程是很清晰的,可以使用圖很方便地回溯推導過程,并可以和人的經驗相互應證。
第三,數據的高效直觀表達
圖數據相對來說是比較容易可視化的,通過將知識圖譜可視化展示給用戶,可以使用戶快速學習或者是發現新的知識。
第四,增強現有模型準確率
因為使用知識圖譜技術把整個數據拉通之后,有助于數據的數據質量的提升,同時可以提高整個模型的準確率。
在我們實踐和探索過程中,我們也遇到了一些困難。總結起來主要有三點,第一個就是因為知識圖譜技術相對來說比較新,在我們這個行業里應用幾乎沒有,所以我們只能去摸著石頭過河去一步一步來,這個過程其實蠻艱辛的。
第二個就是人才,我們對傳統的數據庫還是有一些人才儲備的,但是現有新的領域,招聘人員、儲備人員、培養人員都需要很長的時間,這是第二個痛點。
第三個就是業務部門認知不到位,這也導致參與度不高,所以推進就沒那么快,所以剛建的時候走走停停,推的過程就比較困難。
如何走出困境
面臨這種困境,我們很慶幸就是說找到兩家很好的合作伙伴,一個是今天的東道主悅數科技,我們認為他們是一家很好、很可靠的公司,悅數 圖數據庫除了穩定可靠、性能高效,另外還是國產的,而且是支持信創的。因為我們公司是證監會指定的信創試點單位,所以綜合考慮我們認為「悅數圖數據庫」是最佳的選擇方案。
另外要感謝的就是普適智能,因為我們是缺乏技術儲備的,我們就比較依賴廠商的支持。普適智能是很專業地專注于知識圖譜的應用,而且他們愿意深耕金融行業,對金融行業的業務模式有比較深的沉淀,所以他們可以給我們提供一站式的知識圖譜平臺的解決方案。
我們很多的業務場景都是悅數和普適在駐場和我們業務部門、技術部門一起配合很長時間梳理清楚,把業務搬到知識平臺上,幫我們一步一步搭建起到現在這樣一個平臺,所以在此十分感謝這兩個公司。
場景一:輔助投研
這是我們投研平臺知識圖譜應用的一個邏輯圖。首先我們公司會有很多的內部數據,包括一些非公開的數據、行業的數據,還有一些外部數據,包括我們購買的很多商業數據源、數據研報等等。內外部數據打通之后,我們依托知識圖譜平臺實現了知識的沉淀復用,為后續產業鏈的研究,研報的生成,以及風險預測等等這些業務場景去賦能。
這是我們整個投研過程的描繪:研究員從發現線索出發,然后整理相關資料,經過分析研究框架的判斷,最終形成投資決策和應用。
傳統來說以前就是數據純粹的羅列,檢索也比較簡單,然后我們用知識圖譜平臺可以實現自定義的投研主頁,讓用戶每天高效獲取他所需要的信息,而不需要去浪費過多時間去找線索。另外就是我們優化了檢索算法和信息展示的交互界面,形成了更加貼合用戶習慣的頁面,提升了信息獲取的效率和用戶的使用感受。
之前數據比較割裂,因為搜集數據的渠道來源很多,也很不方便,通過這個平臺把多維的數據整合,加上自有數據的上傳,還有指標編輯等功能,實現了數據收集效率的大幅提升。
然后我們底層使用的是批流一體的圖譜技術,讓數據更加及時,拓展性也更強了。以前的分析判斷過程是研究人員分析判斷完全依賴個人經驗,分析工具也比較少,導致效率比較低。我們通過機器學習來輔助數據的分析和挖掘,能夠主動定位可能的分析方向,提高探索效率。
在決策和應用階段,以前研究人員僅是能夠生成這個報告,但是寫的報告一個是精度可能比較低,另外它的準確度有可能會比較模糊,所以我們聯通了用戶的分析過程和報告產生的過程,然后能夠快速獲取研究分析所依賴的數據以及分析的流程,幫助他們去提升整個分析的邏輯,讓數據和研究員的個人經驗去做一個印證。有可能他的知識或者他的框架可能有錯誤和偏差,通過這樣的數據分析也可以優化。
具體來說,輔助投研場景是這樣的——因為期貨行業里面有很多品種是存在比較強的相關關系的。比如說原油,它的衍生品有燃料油、化纖、化工類產品、瀝青等等。
一個品種的價格變動,對相關的品種都是有影響的,所以我們投研平臺第一步就要先要找到對應關系,把它在這個平臺上用圖譜形式去展示出來,然后通過一些模型的訓練,除了找到影響的關系之外,還要找到影響的程度,就是它的權重。
當然了,這要經過大量的模型訓練或者驗證,通過找到一個品種價格變化傳導到其他相關品種價格的關系,來輔助研究人員做相應的研判。
除了品種之間有較強的相關性之外,期貨行業有些相關品種的產業鏈是比較強的,因為上游可能有很多層級,下游消費方可能也有很多的節點,所以我們以研究員的視角,在平臺上繪制出整個產業鏈的結構圖,目的是找到整個產業鏈的價格傳導機制。
圖上展示的就是能源板塊的一個產業鏈。比如煤炭,除了國家的政策會影響到煤炭的生產之外,衍生品的情況也有影響。煤炭的衍生品也就是產業鏈下游,就是焦煤、焦炭,還有動力煤。動力煤是用來發電的,焦煤焦炭是用來煉鋼的,第一步先練成粗鋼,然后粗鋼再煉成螺紋鋼和熱軋卷板,同時鋼這個黑色品種又和鐵礦石有關系,鐵礦石除了煉鋼之外,它還有像錳鐵錳硅之類的一些副產,研究人員在這個平臺上可以把這個品種的整個上下游產業鏈和它的關聯關系去描繪出來。
對研究人員本身來說,他借助這個平臺可以提升自己的知識,同時這個平臺在使用過程中也會逐漸的增強自身的能力和價值。
場景二:金融事件分析
第二個場景是金融事件分析。因為期貨行業的價格影響,除了既有的產業鏈模型之外,還有很多突發性事件,類似于黑天鵝事件, 所以輿情或者資訊對商品的價格可能也會有很大的影響。
所以我們也做了這樣一個模型,而且這個模型會持續地去打上時間的標簽,因為時間對行情的影響是有很大的影響的,越老的資訊可能影響度就更低一些。
舉個例子,年初的俄烏戰爭對期貨市場上的行情影響比較大,主要影響是兩個,一個是鎳這個品種大家可能都知道或者都看到過。因為俄羅斯是鎳主要的供應國,發生戰爭之后,俄羅斯的鎳不能夠給中國出口,所以導致鎳出現了極端的行情。同時,下游產品像不銹鋼主要是用鎳去生產的,所以間接也影響到不銹鋼這個品種的價格走勢。
所以我們希望能夠以關聯這個數據為基礎,從期貨行業固有的邏輯和實時事件雙管齊下,通過平臺實時洞察不同事件組合對特定商品價格影響的強度,同時也隨時觀察期貨相關聯的歷史事件。
場景三:合規風控
場景三是合規風控,因為期貨行業是一個高風險行業,所以無論是監管機構,還是期貨公司自身的風控要求都十分嚴格,合規風控能力也是我們一個核心競爭力。
一般來說,我們有兩類風控模型,一個是不同的客戶在同一個 MAC 地址下,買賣期貨合約品種以及它的交易行為時間點高度一致,它可能會存在“拖拉機賬戶”,也就說是一個客戶操控了多個賬戶,這在期貨行業里是不允許的。通過圖上的交叉關系或者匯聚的密集程度,合規風控人員很容易地去判斷出這類行為。
另外一類就是同一個賬戶,同時存在多個交易的 IP 和 MAC 地址,這類行為可能是有配資嫌疑的,結合其他數據和模型,我們可以更加精準地判斷它是否存在配資的嫌疑。這對合規風控來說,極大提高了它的判斷能力,我們可以對這類交易進行提前的干預,有效避免合規風險。
場景四:客戶洞察
第四類場景是客戶洞察,我們基于客戶交易行為進行匯總,把他們進行一些社群劃分,比如感興趣交易哪些品種、感興趣哪類研報,我們把這些作為劃分依據,用于進行相對精準的一些推送。
因為期貨行業服務的同質化比較嚴重,所以我們也希望能夠通過數據來做數字化的運營,給客戶提供差異化的服務和精準營銷,實現更好的客戶體驗。
場景五:智能運維 AIOps
AIOps 是我們最近才梳理的一個場景。像我們公司有十幾個機房部署在全國各地,可能有上千臺服務器,整個交易系統會產生大量的數據和日志等,而且不同的機房不同的系統之間網絡也都是通的,一些應用組件都是互相調用的關系,它其實本身就是一個巨大的網絡。
所以我們把這些運維的數據,服務調用的數據,還有批量作業數據設備部署的數據以及系統運行的日志數據,整合到這個平臺里,然后把他們的關系提取出來,實體也提取出來,構建這樣一個智能運維的模型。
我們可以更加細化到具體的運維設計場景,比如說故障影響分析,當某個節點或設備出現故障時,和它有關聯的系統或應用也可能會存在問題。接下來根據業務調用關系,它(故障)有可能會傳達到別的系統,還有可能會影響到不同類型的客戶,所以我們要把關系描繪出來,以進行一些系統切換或故障通知等等。
另外就是變更,因為業務系統 80% 的風險,或者說它的故障運維事件,都是因為這個系統升級變更造成的。升級某一個組件可能會影響到哪些系統、哪些客戶需要哪些部門的人去做一些干預或協調、怎么更好地去應急等,我覺得在圖譜上都可以實現,以便更好地指導我們的日常運營工作。
還有像系統架構的分析,像系統架構合不合理、有沒有存在單點的故障,這些我覺得都可以在圖譜這個平臺上去實現。
場景六:網絡安全
另外一個就是網絡安全,這塊我們覺得也是可以應用到的。因為我們現在有這樣一個安全監控平臺,它的規則是基于系統產生的日志,如果日志發生了或者是平臺感受到它和現有的規則不匹配,系統會產生告警信息。但是告警信息是一種孤島, 哪里出現問題哪里告警,但是我們希望能夠把整個安全模型構建出來,然后找出故障的傳導機制,進而分析出它可能會對哪些系統或者說網絡安全環境造成影響。
另外一個就是攻擊行為或者說病毒,通過知識圖譜可以更加方便、有效地回溯它的路徑或者預測攻擊行為,這樣能夠更加智能化地去輔助我們的安全管理人員去做好安全管理工作。
所以安全知識圖譜,我們認為是作為安全領域的一個專用知識圖譜,它可以結合安全知識經驗和數據發揮知識整合的優勢,將離散分布的多元異構的安全數據組織起來,加速安全領域的智能化和自動化。
作為第一家和悅數圖數據庫合作的期貨公司,我們很榮幸,也希望更多的技術專家能夠關注到期貨這個行業,能夠輸送人才去指導期貨行業金融科技的發展。所以最后感謝悅數科技,謝謝大家。