什么是數據和數據質量
1. 什么是數據?
數據(data):是事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。數據可以是連續的值,比如聲音、圖像,稱為模擬數據或者計量型數據。也可以是離散的,如符號、文字,稱為數字數據或計數型數據。在計算機系統中,數據以二進制信息單元0,1的形式表示。
2020年3月30日,中共中央國務院《關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》)正式公布。這是中央第一份關于要素市場化配置的文件。文件中分類提出了土地、勞動力、資本、技術、數據五個要素領域改革的方向。當中備受關注的亮點是,“數據”作為一種新型生產要素,首次與其他傳統要素并列為要素之一。
2. 什么是數據質量?
2.1數據質量:數據的一組固有屬性滿足數據消費者要求的程度。
真實性、及時性和相關性是數據的固有屬性。
真實性:即數據是客觀世界的真實反映;
及時性:即數據是隨著變化及時更新的;
相關性:即數據是數據消費者關注和需要的;
2.2 高質量的數據應從組織、戰略、運營、項目、質量管理、相關方角度等滿足數據消費者的要求。總結起來,數據消費者對數據的需求有如下幾個方面。
a. 可得性 - 當需要數據時能夠獲取到;
b. 及時性 - 當需要時,數據獲得且是及時更新的;
c. 完整性 - 數據是完整沒有遺漏的;
d. 安全性 - 數據是安全的,避免非授權的訪問和操控;
e. 可理解性 - 數據是可理解和解釋的;
f. 正確性 - 數據是現實世界的真實反映。
基于以上,需要評估數據是否滿足消費者要求,這就是數據質量管理。
3. 什么是數據質量管理?
3.1數據質量管理:是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
3.2數據質量的評估維度:
a. 完整性,是指數據信息是否完整,是否存在缺失情況。
b. 規范性,是指記錄是否符合規范,是否按照規定的格式存儲(例如標準編碼規則)。
c. 一致性,是指數據是否符合邏輯,數據內單項或多項數據間存在邏輯關系。
d. 準確性,用于度量哪些數據和信息是不正確的,或者數據是超期的。
e. 時效性,數據從產生到可以查看的時間間隔,也叫數據的延時時長。
f. 唯一性,用于度量哪些數據是重復數據或者數據的哪些屬性是重復的。
g. 合理性,是從業務邏輯角度判斷數據是否正確。評估方面可參照規范性、一致性做法。
h. 冗余性,是指多層次數據中,中是否存在不必要的數據冗余。
i. 獲取性,是指數據是否易于獲取、易于理解和易于使用。
3.3影響數據質量的因素:主要來源于四方面:信息因素、技術因素、流程因素和管理因素。
信息因素:產生這部分數據質量問題的原因主要有:元數據描述及理解錯誤、數據度量的各種性質(如:數據源規格不統一)得不到保證和變化頻度不恰當等。
技術因素:主要是指由于具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
流程因素:是指由于系統作業流程和人工操作流程設置不當造成的數據質量問題,主要來源于系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
管理因素:是指由于人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
組織如何解決數據質量問題?可以從戴明環PDCA的角度,來解決數據存在的質量問題,云質信息總結如下圖:
4.云質觀點
數據作為一種新型生產要素寫入了《意見》。如何解讀這背后釋放的政策信號?如何讓數據要素的分配更加“有數”?大數據交易市場如何從“0”到“1”實現突破?此舉旨在通過加快數據要素市場培育,充分發揮數據要素對其他要素效率的倍增作用,使大數據成為推動經濟高質量發展的新動能。
國際通用的質量管理體系ISO9001中的不同條款也多次提到,組織應評價和分析數據以改進組織的過程。
在此我們先留下一個問題待分解,即組織如何利用好質量數據來改善組織的過程呢?
ISO9001:2015中摘錄部分條款如下:
0.3.1總則
在質量管理體系中應用過程方法能夠:
a) 理解并持續滿足要求;
b) 從增值的角度考慮過程;
c) 獲得有效的過程績效;
d) 在評價數據和信息的基礎上改進過程。
9.1.3 Analysis and evaluation分析和評價
組織應分析和評價通過監視和測量獲得的適當的數據和信息。
應利用分析結果評價:
a) 產品和服務的符合性;
b) 顧客滿意程度;
c) 質量管理體系的績效和有效性;
d) 策劃是否得到有效實施;
e) 應對風險和機遇所采取措施的有效性;
f) 外部供方的績效;
g) 質量管理體系改進的需求。
注:數據分析方法可包括統計技術。