使用ABBYY FlexiCapture來(lái)分析和提取工程計(jì)劃書中的數(shù)據(jù)
挑戰(zhàn)
從中文工程設(shè)計(jì)方案中
提取數(shù)據(jù)
解決方案
ABBYY FlexiCapture
結(jié)果
- 從工程技術(shù)文件中自動(dòng)提取數(shù)據(jù)
- 1天組建方案
- 1年完成項(xiàng)目
成為世界頂級(jí)的清潔能源生產(chǎn)商是中國(guó)廣核集團(tuán)(中廣核,前身為中國(guó)廣東核電集團(tuán)有限公司)的宏偉目標(biāo)。中廣核成立于1994年,注冊(cè)資金為102億元,目前已經(jīng)發(fā)展成為一個(gè)受國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)(SASAC)監(jiān)管的主要工業(yè)集團(tuán)。
CGN下轄30多家子公司和研發(fā)中心,其中,負(fù)責(zé)核電工程、施工和管理的中國(guó)核電工程有限公司(CNPEC)是其核心機(jī)構(gòu)。自2004年成立以來(lái),它已經(jīng)成長(zhǎng)為行業(yè)的中堅(jiān)力量,其項(xiàng)目包括核電與常規(guī)電廠建設(shè)、供排水及民用工程承包。
查看如何ABBYY會(huì)幫助您
紙質(zhì)文件限制業(yè)務(wù)發(fā)展
和其他紙張密集型企業(yè)一樣,CGN的業(yè)務(wù)也開始受到堆積如山的文件的限制。公司每年都有大量的計(jì)劃書、工程圖紙和建筑設(shè)計(jì)文件,而且這個(gè)數(shù)量就像滾雪球一樣越滾越大。管理這樣大量的紙質(zhì)文件自然會(huì)引起諸多問題:
- 文件查找速度慢,而且需要大量人力和資金;
- 文件存儲(chǔ)需要大量資金和空間;
- 可能會(huì)由于文件打印稿受損或毀壞導(dǎo)致數(shù)據(jù)丟失。
CGN自然想到有必要將紙質(zhì)文件數(shù)字化;這樣的解決方案在市場(chǎng)上已經(jīng)存在。最初,工作人員想到了一種最簡(jiǎn)單的方法:手工錄入。但這種方法速度慢,容易出錯(cuò),而且需要耗費(fèi)大量人力。
OCR是一種自動(dòng)化數(shù)據(jù)輸入方法,但它不適用于手寫文檔,而且不能選擇性地提取有用數(shù)據(jù)。 最終,公司找到了基于內(nèi)置OCR和ICR數(shù)據(jù)采集技術(shù)的智能文檔處理解決方案。這是一種頂尖的現(xiàn)代數(shù)據(jù)處理解決方案,可以避免全文識(shí)別,僅僅提取必要的印刷和手寫數(shù)據(jù),也可以給文件分類,并從最復(fù)雜的文件布局中極其準(zhǔn)確地提取信息。
通過為期四個(gè)月的艱苦研究,公司測(cè)試和檢測(cè)了目前市場(chǎng)上所有廠商提供的技術(shù),并最終選擇了上海泰彼信息技術(shù)有限公司提供的基于數(shù)據(jù)采集技術(shù)的戰(zhàn)略性長(zhǎng)期解決方案,這種方案兼具大量必要功能,并具備高度的可擴(kuò)展性和靈活性。
上海泰彼信息技術(shù)有限公司專門提供成像、掃描、項(xiàng)目咨詢與發(fā)展端到端解決方案,并使用ABBYY技術(shù)作為解決方案的核心要素。此外,作為ABBYY的中國(guó)合作伙伴,公司長(zhǎng)期擁有基于ABBYY技術(shù)成功實(shí)施項(xiàng)目的專業(yè)技能,在中國(guó),這比任何廣告宣傳活動(dòng)都更有用。
使用ABBYY FlexiCapture來(lái)分析和提取工程計(jì)劃書中的數(shù)據(jù)
CGN需要通過一個(gè)輸入口來(lái)輸入各種類型的大量文件,這些文件大多布局松散,包括含有打印和手寫數(shù)據(jù)的工程圖紙、計(jì)劃書、表格等。通過使用靈活的模板,ABBYY FlexiCapture確保能夠正確地采集這些數(shù)據(jù);為此,CGN專門接受了相關(guān)培訓(xùn)。
此外,ABBYY數(shù)據(jù)采集技術(shù)是能夠準(zhǔn)確識(shí)別漢字的少數(shù)技術(shù)之一。
整個(gè)項(xiàng)目包括以下幾個(gè)步驟:
- 用一天時(shí)間安裝和設(shè)置ABBYY FlexiCapture;對(duì)CGN專業(yè)人士提供為期三天的培訓(xùn),指導(dǎo)他們學(xué)會(huì)如何創(chuàng)建靈活的模板。
- 對(duì)所有計(jì)劃書、圖紙等文件進(jìn)行掃描,并導(dǎo)入到系統(tǒng)之中,這個(gè)過程可以全天候無(wú)間斷地自動(dòng)進(jìn)行,不需要人員值守。
- 系統(tǒng)根據(jù)創(chuàng)建的各種模板分析文件自動(dòng)查找表格,定位所需字段并從中提取數(shù)據(jù)。
- 為了確保數(shù)據(jù)100%準(zhǔn)確,受過專業(yè)培訓(xùn)的操作員團(tuán)隊(duì)會(huì)驗(yàn)證可疑的識(shí)別數(shù)據(jù)以及原文中的印刷錯(cuò)誤。
- 最后,將經(jīng)過提取和驗(yàn)證以后的數(shù)據(jù)(文本、表格、工程圖表等)導(dǎo)出至SAP ERP系統(tǒng),以便進(jìn)行后續(xù)處理和分析。
結(jié)果
中國(guó)廣核集團(tuán)是一家大型國(guó)有企業(yè)。自成立以來(lái),它已積累了數(shù)噸紙質(zhì)文件資料,包括工程設(shè)計(jì)、圖紙等技術(shù)資料。ABBYY的中國(guó)合作伙伴是端到端數(shù)字化及數(shù)據(jù)采集解決方案領(lǐng)域的專家,采用ABBYY FlexiCapture來(lái)提取文件中的有用信息和可視內(nèi)容。由于工程計(jì)劃書和圖紙通常都布局松散,而且種類各異,這項(xiàng)任務(wù)非常艱巨。ABBYY FlexiCapture不僅能很好地支持中文腳本,而且可以根據(jù)項(xiàng)目需求輕松地進(jìn)行定制(包括設(shè)計(jì)靈活的模板、設(shè)置工作流等),因此是理想之選。
項(xiàng)目?jī)H用1年時(shí)間,就利用ABBYY FlexiCapture對(duì)多年積累下來(lái)的全部工程文件進(jìn)行了數(shù)字化處理和加工。公司節(jié)省了查閱信息所需的時(shí)間,手工錄入和驗(yàn)證所需的勞力,以及此前物理存儲(chǔ)所浪費(fèi)的資源。