大語言模型在企業內部審計中的實踐分析

在當前的企業環境中,內部審計面臨著數據量大、業務復雜度高等挑戰。隨著人工智能技術的發展,特別是大語言模型(LLM)的應用,企業內部審計的實踐正在經歷一場革命性的變化。以下是對大語言模型在企業內部審計中應用的深度剖析。
技術概覽與應用場景
大語言模型,以其強大的文本處理能力和深度學習算法,正在被廣泛應用于企業內部審計的多個方面:
- 審計知識智能問答:通過構建審計知識庫,大模型可以快速準確地回答審計人員的問題,提供業務知識、經驗、法規等信息。
- 審計文書智能編寫:利用大模型的文本生成能力,可以自動生成審計通知書、實施方案、取證單、底稿和報告等文書,提高審計效率。
- SQL分析模型智能生成:大模型能夠根據審計需求自動生成SQL語句,幫助審計人員進行數據分析,無需深入了解SQL語法和數據庫技術。
- 審計方案智能設計:大模型可以根據歷史審計經驗和知識庫,自動提供審計思路和數據分析方案,提升審計效率。
- 審計信息化智能教育培訓:大模型可以智能生成審計信息化教育培訓所需的測試題庫,提供個性化的課程知識分析與指導。
審計知識智能問答搜索實踐案例
在銀行的審計工作中,存在大量非結構化文本數據,涵蓋了業務數據取證分析等方面,但缺乏一個統一的管理平臺,依賴于人工經驗進行工作。圍繞文本數據治理,達觀數據為銀行審計部開展智能審計項目建設——搭建統一的搜索應用平臺,從非結構化文本數據出發,通過自然語言處理、光學字符識別等先進AI技術,可對復雜、分散存儲的多源異構數據進行文檔歸集、內容解析、比對等,同時,它還配備了強大的語義級別垂直領域搜索引擎,以便更好地管理智能化搜索,有效地解決審計工作中存在的信息庫建設、信息檢索、信息溯源等問題,從而提高提高整體審計業務能力,并向全行共享,有助于推動全行的合規建設,進而提升應用的價值。
審計業務面臨數據信息和系統架構的分散性、異構性和復雜性,深挖各類數據的價值一直是挑戰,銀行內部數據的有效利用率并不高,尤其是審計部門內部大量文本數據未形成資產。問題很多:
難點1:非結構化數據治理,數據多源異構,審計文檔多為過程性文檔,文檔類型十分多樣(PPT、Excel、Word、PDF、圖片),文字解析難度大
難點2:搭建統一搜索平臺,關鍵詞搜索召回效果不達預期,上游數據推送不穩定導致搜索數據不完整、不準確
難點3:數據不規范,知識圖譜三元組構建遇到阻礙,知識圖譜的數據更新需要保證準確性、及時性
難點4:審計知識文本和筆記較為敏感,需要設計嚴密的權限體系
達觀數據建設了智能審計知識庫項目,一是實現數萬份的多系統內部文檔、數十萬份外部監管政策文檔等海量異構數據存儲與分析。且圖片、文檔、表格解析率超95%,可實現圖片、文檔、表格中所有文字可搜,滿足一站式搜索服務;二是搜索速度快,標題和全文檢索速度為毫秒級別;三是搜索智能化,搜索服務中已上線了超數十種NLP模型算法用于增強對搜索詞的語義理解,實現了 意圖識別、模糊搜索、和搜索詞糾錯、標簽提取等功能。成為審計人員日常必不可少的內外部數據快速獲取、信息關聯 的數智平臺 。一方面為常態化內控評估與審計評價夯實技術支持,另一方面探索實現審計能力內部輸出,助力一道和二道防線的內控建設。
本案例所用達觀數據新一代大模型智能知識管理系統,它以達觀自主開發的“曹植”大語言模型為基座,堅持訓練數據與算法模型自主可控,為銀行提供了“算力+模型”的全套國產化信創方案。
該案例數據治理成果顯著,為銀行審計部門激活了大量歷史文檔并轉化為數據資產。該方案面向審計部門內部、銀行內部提供服務,被廣泛應用,可于工作全流程提升信息獲取速度,且提升50%以上。其中,智能審計知識庫項目月活部門占比率最高超80%。立足內部審計、內控合規等領域建設,接入數十萬份非結構化文件;保障跨系統對接數據的實時性、穩定性;應用數十種NLP模型;為審計項目、業務合規自查提供支持,促進業務合規穩健發展。
