男女性高爱潮免费网站,免费人成在线观看视频播放,三级三级三级a级全黄,日日摸日日碰夜夜爽无码,国产精品久久久久精品日日,黑人巨大粗物挺进了少妇,国产麻豆一区二区三区精品视频,精品久久久久久亚洲综合网

從文檔中提取細粒度知識點,構建文檔知識圖譜的方法

噠噠
+ 關注
2025-03-04 15:11
267次閱讀
一、引言

隨著信息技術的飛速發展,數據呈爆炸式增長,如何從海量的文檔中提取有價值的知識點并構建知識圖譜成為了一個重要的課題。從文檔中提取細粒度知識點構建知識圖譜,不僅可以幫助人們更好地理解和管理知識,還可以為各種應用提供有力的支持。

知識圖譜作為一種有效的知識組織和管理方式,在各個領域都有著廣泛的應用。本文將聚焦于從文檔中提取細粒度知識點構建知識圖譜的方法和經驗,以達觀智能知識庫的知識圖譜功能為例,為相關領域的研究和實踐提供參考。

達觀智能知識庫的知識圖譜功能在這方面具有獨特的優勢。它結合了先進的自然語言處理技術和人工智能算法,能夠高效地從文檔中提取細粒度知識點,并構建出準確、豐富的知識圖譜。下面將詳細介紹達觀智能知識庫在構建知識圖譜方面的方法和經驗。

 

從文檔中提取細粒度知識點,構建文檔知識圖譜的方法

二、細粒度知識點提取在知識圖譜中的應用
(一)內容中心知識圖譜與大語言模型的整合

以實體為中心的知識圖譜節點代表特定概念或實體,邊表示概念間特定關系。這種細粒度的知識圖譜允許使用圖查詢語言如 Cypher 或 Gremlin 表達各種查詢,且已成為存儲和檢索信息供大語言模型在高級檢索增強生成技術中使用的流行替代方法。知識圖譜能捕獲向量相似性搜索會遺漏的信息之間的關系,而大語言模型使得僅通過提示就能從非結構化內容中提取知識圖譜三元組。然而,從非結構化信息中提取這種細粒度的知識圖譜很困難、耗時且容易出錯。為獲得最佳結果,需要使用大語言模型處理所有非結構化內容以提取信息,創建“知識模式”來指導大語言模型提取的節點和關系類型,檢查提取信息的圖以確保正確性,且在更改知識模式時需重新處理所有內容。這導致構建和維護此圖的成本很高,也使得大多數使用知識圖譜進行檢索增強生成的示例僅對幾個句子或段落進行操作。

以內容為中心的知識圖譜節點代表文本塊等內容,邊代表結構、語義和元數據屬性。其節點代表原始內容,允許大語言模型處理上下文并挑選出重要信息。與細粒度知識圖相比,這種以內容為中心的知識圖譜具有無損、免維護、可擴展等優勢。無損是指原始內容保存在節點中,不會在創建過程中丟棄信息,減少了根據需求變化重新索引信息的需要,并允許大語言模型根據問題從該上下文中提取答案。免維護是指不需要專家來調整知識提取,可以在現有向量搜索管道中添加一些基于關鍵字、超鏈接或數據其他屬性的邊提取,然后自動添加鏈接。可擴展是指創建過程可以使用對內容的簡單操作來實現,無需調用大語言模型來創建知識圖。創建過程也更簡單,不需要領域專家,內容被加載、分塊并寫入存儲后,可通過各種分析識別鏈接,如內容中的鏈接可變成 links_to 邊,從塊中提取關鍵字可鏈接到同一主題的其他塊,還在開發更多用于鏈接的技術。對這些粗粒度圖的檢索結合了向量搜索和知識圖遍歷的優點,可以根據與問題的相似性識別起點,通過遵循邊選擇其他塊,并對遍歷的深度進行限制,包含通過嵌入距離和圖距離相關的節點會導致更廣泛的塊集,圖中的許多邊會使信息加深上下文。

(二)多模態知識圖譜補全

引入新穎的框架 MyGO,用于處理、融合和增強多模態知識圖譜中的細粒度模態信息。MyGO 框架由模態標記模塊、層次三元組建模架構和細粒度對比學習模塊三個組成部分組成。模態標記模塊將多模態知識圖譜中的實體模態信息標記為細粒度離散標記序列,通過將非文本模態處理成 token 序列,再使用向量量化技術將每個 token 映射到離散標記中,生成細粒度的多模態標記。層次三元組建模架構包括跨模態實體編碼器、上下文三元組編碼器和關系解碼器,跨模態實體編碼器用于編碼多模態實體信息,生成細粒度的實體表示;上下文三元組編碼器用于捕捉實體間的上下文關系,進一步細化實體表示;關系解碼器用于評估三元組的合理性,并生成預測結果。細粒度對比學習模塊通過生成多樣化的對比樣本來增強模型性能,采用新的策略生成高質量的對比樣本,從而實現更詳細和有效的自監督對比學習,通過對比學習,模型能夠更好地捕捉多模態數據中的細微差別和相互作用。在公共基準數據集上進行全面實驗,MyGO 在多模態知識圖譜補全任務中超過了 20 個最新基線方法,達到了新的最先進性能。

三、達觀智能知識庫知識圖譜功能介紹

 

從文檔中提取細粒度知識點,構建文檔知識圖譜的方法

 

(一)核心功能
  1. 異構數據知識獲取的全流程自動化
    • 利用達觀 RPA 無侵入對接各個系統,解析多源異構數據,構建專業領域知識圖譜。在規劃、研發、設計、生產、制造、客戶服務、設備管理中有 FMEA、FTA、FA、產品和設備手冊、工單、品質報告等專業文檔,以及存在于 MES、PLM、APS、OA、ERP、MRP、CRM、SCM、PDM 等系統中大量數據。通過知識抽取技術對這些數據進行解析和理解,充分挖掘“人機料法環測”等多維信息,應用知識推理和知識融合等技術構建知識圖譜。
    • 支持多種格式文檔的解析、表格提取、關鍵實體關系信息抽取和知識融合。達觀知識圖譜支持對 Word、Excel、PPT、PDF 等格式文檔進行解析,能夠快速針對故障報表和故障報告全流程、自動化解析和構建圖譜。
  1. 故障問題歸因分析
    • 輸入失效或故障的描述信息,系統會自動理解并抽取出關鍵信息,并從知識圖譜中提取出與失效現象相匹配的子圖,實現失效原因的定位,給出相應的解決方法和改善措施。
    • 歸因分析解析結果頁提供所有可能的原因,原因之間能做到相互獨立,完全窮盡,每一條結果支持查看失效原因的圖譜,并提供原始 FTA、FA 數據的溯源信息,在需要時得以獲取原始數據進行細節審查和可信度鑒別。整個過程采用領先的自然語言理解、知識推理、圖語義匹配和信息檢索等技術,實現高效、全面的失效智能分析。
  1. FMEA 失效模式自動發現與輔助制作
    • 在產品生產及日常維護過程中,若存在技術更替或者設備更換,設備資料也會隨之更新。達觀智能制造知識圖譜平臺可以從新上傳失效文件中深度挖掘新失效模式、新原因、新的解決方法和新的改善措施,更新到相應的圖譜中。
    • FMEA 制作人員在設計過程中可能存在疏漏,當生產運營過程發生了 FMEA 文件中未考慮到的故障現象,可將對應失效故障模式抽取出來更新到 FMEA 圖譜中,提示人工確認并更新相應的 FMEA 文檔,保持圖譜中的信息和實際情況同步更新迭代,使整個圖譜中的信息處于最新的狀態。以此實現 FMEA 制作的智能化,提升設備、工藝和產品的質量和可靠性,為數字化和智能化工廠賦能。
  1. 智能問答和檢索
    • 基于自然語言語義分析技術的智能問答系統,幫助用戶更快、更智能地找到設備、人員、物料、工序、環境因素之間關聯關系,答案可解釋,同時支持答案結果的文檔溯源。
    • 達觀知識圖譜問答系統采用業內領先的自然語言理解和知識抽取技術,理解問題中的關鍵信息并識別用戶的意圖,結合知識推理、子圖匹配、信息檢索等技術精準找到問題的答案,并根據答案的特點以合適的樣式返回給用戶。

 

從文檔中提取細粒度知識點,構建文檔知識圖譜的方法

(二)在不同領域的應用
  1. 先進制造業
    • 在先進制造業的多個環節提供認知智能能力,實現失效與故障歸因分析、FMEA 管理和輔助制作、設備維護與維修工單等功能。達觀數據智能制造知識圖譜平臺通過對FMEA、FMECA、FMEDA、FTA、失效分析報告、失效案例、設備手冊等文檔構建成知識圖譜,并實現智能化的、全面的、高效的和準確的故障診斷與失效歸因分析,助力先進制造業企業打造基于認知智能的質量體系,持續提升產品質量和生產可靠性水平。深度挖掘失效分析報告和其他與失效有關的文檔,使用知識推理技術發現新失效模式、新原因、新的解決方法和新的改善措施,通過歷史數據評估嚴重度、探測度、頻度和風險分析,基于 DFMEA、MFMEA、PFMEA、SFMEA 等模板實現 FMEA 的輔助制作,實現快速、高效、全面的 FMEA 制作。能夠實現對維修工單、故障記錄、流程審批、維修手冊、產品和設備手冊、故障分析報告等文檔進行解析、抽取和結構化,同時結合設備屬性和關聯關系,構建出先進制造業的故障知識庫,并充分應用當前最前沿的認知智能技術,實現設備維護和維修的智能化應用。
    • 廣泛應用于“集成電路、生物醫藥”等先導行業,“電子信息、生命健康、汽車、高端裝備、先進材料”等重點產業,全方位賦能企業充分利用所積累的知識財富,實現知識化和智能化轉型,激活企業創新能力。
  1. 故障分析
    • 針對制造型企業故障分析的痛點,提供智能故障排查、FMEA 智能更新、FMEA 輔助制作、故障案例統計分析等核心功能。
    • 智能故障排查:當用戶發現故障,對故障現象問題收集后,可以將故障問題描述內容輸入到檢索框,圖譜平臺會智能解析該故障描述,通過引導用戶逐步補充故障信息、定位故障位置,推薦排查措施、相似案例,輔助工程師高效排故。
    • FMEA 智能更新:故障解決后,產線會輸出故障報告,用戶可以將該報告上傳至故障分析知識圖譜平臺,平臺會對里面涉及到的 FMEA 故障知識進行識別和抽取,與平臺里面歷史 FMEA 文檔做比較,若有新知識,會給相關用戶推送結果,經審核后更新歷史 FMEA。
    • FMEA 輔助制作:用戶可以通過多種復雜組合篩選條件進行故障知識的查找,比如篩選兩個產線的不同的生產工序過程、選擇要制作的新 FMEA 模版、由專家審核組合條件結果,并下載成一份新 FMEA 文檔。
    • 故障案例統計分析:主要針對故障報告、FMEA 文檔里面的一些數據指標項進行統計分析,并將結果應用到產線進行持續優化改善,如對零部件、供應商、工藝、性能指標等進行統計分析,以輔助產線工程師制定優化策略。
四、達觀智能知識庫構建知識圖譜的經驗
(一)知識圖譜的構建方法
  1. 從多源異構數據構建知識圖譜
    • 結構化數據通過映射式配置導入,非結構化數據通過文檔智能解析和信息智能抽取構建。達觀智能知識庫支持常見公開文檔類型(如財務報表、招股說明書、商業合同等)和企業內部文檔類型的信息抽取,能夠從繁雜的文本、文檔等非結構化資料中,利用自然語言處理中智能抽取的技術,抽取出業務相關知識構建知識圖譜。
    • 達觀智能知識庫可構建專業領域知識圖譜,例如在先進制造業中,通過知識抽取技術對 FMEA、FTA、FA、產品和設備手冊、工單、品質報告等專業文檔,以及 MES、PLM、APS、OA、ERP、MRP、CRM、SCM、PDM 等系統中的大量數據進行解析和理解,充分挖掘“人機料法環測”等多維信息,應用知識推理和知識融合等技術構建知識圖譜。
  1. 基于知識圖譜的問答打造行業專家系統
    • 達觀智能問答專家系統,能夠在準確識別用戶問題意圖的基礎上,在圖譜中找到相應的答案,支持對實體、屬性、關系等各種數據的問答,且能對知識進行溯源。例如在金融領域,通過構建知識圖譜,投資者可輕松獲取所感興趣的上市公司在專業機構研究中的投資觀點;在軍工領域,通過對數據進行信息挖掘、數據分析和信息融合,為軍事行動和作戰指揮提供更加科學、精確、及時、到位的決策依據。
(二)智能問答系統技術架構
  1. 問句預處理
    • 進行分詞、詞性標注等操作,還可根據知識圖譜中已有的模式、實體名稱、關鍵屬性值對問句進行糾錯。實際場景下,通過句法分析提取 query 中的短語作為實體提及,如采用 HanLP 自然語言處理包中的短語提取接口對 query 提取名詞短語,通過中文樹庫限制短語的詞性過濾重要的短語,避免單詞或 Ngram 作為實體提及檢索帶來的巨大開銷。
  1. 實體鏈接和詞槽提取
    • 結合精確鏈和模糊鏈接提高實體鏈接精度。實體精確鏈接利用知識庫中已有的知識點,將模式(schema)名稱、實體名稱、可遍歷的枚舉屬性值集合構建字典樹(即 Trie 樹),通過 Trie 前綴樹提取查詢中的精確實體名稱,并以 query 分詞結果 token 作為基本粒度構建 Trie 樹進行優化,避免提取出不相關的實體提及。

 

五、結論

知識圖譜作為一種有效的知識組織和管理方式,在從文檔中提取細粒度知識點構建知識圖譜方面展現出了巨大的潛力。達觀智能知識庫的知識圖譜功能在先進制造業、故障分析等領域的成功應用,為我們提供了寶貴的經驗。知識圖譜在各個領域的應用前景廣闊,隨著技術的不斷進步,知識圖譜的構建方法將不斷創新和完善,為知識管理和應用帶來更多的價值。

 

[免責聲明]

原文標題: 從文檔中提取細粒度知識點,構建文檔知識圖譜的方法

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者噠噠
噠噠
0
達而觀信息科技(上海)有限公司
實力廠商
實力廠商
優質服務
優質服務
及時響應
及時響應
立即詢價
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作
主站蜘蛛池模板: 欧美老熟妇欲乱高清视频| youjizz国产在线观看| y111111少妇影院无码| caoporn国产精品免费视频| 国产亚洲精品久久久久妲己| 日本在线看片免费人成视频| 亚洲av白丝在线播放| 永久免费无码av在线网站| 辣妹子影院电视剧免费播放| 青青草视频免费观看| 扒开双腿疯狂进出爽爽爽| 99久久99久久精品免费观看| 公天天吃我奶躁我的在| 亚洲日韩av一区二区三区四区| 国产美女遭强高潮网站| 日本xxx免费高清色视频在线观看| 乱人伦人妻中文字幕| 孕交videosgratis孕妇性欧美| 大bw毛毛多巨大bw大bw| 日韩av无码免费播放| 护士人妻hd中文字幕| 啦啦啦在线观看免费高清视频| 内射人妻骚骚骚| 美女裸体十八禁免费网站| 日本妇人成熟免费中文字幕 | 夜夜躁日日躁狠狠久久av| 丰满妇女强制高潮18xxxx| 久久精品人人做人人爽老司机 | 色哟哟在线视频精品一区| 少妇自慰流白口浆21p| 久久久久亚洲av成人网人人网站| 亚洲欧洲无码av不卡在线| 欧美videosdesexo吹潮| 国产性色av高清在线观看| 啦啦啦高清视频在线观看免费| 宝贝腿开大点我添添公视频免 | 99精品国产一区二区三区 | 国产乱子伦真实| 毛片无码一区二区三区a片视频| 国产精品毛片在线完整版| 亚洲精品无码aⅴ中文字幕蜜桃|