在當(dāng)今社會(huì),數(shù)據(jù)已經(jīng)成為一些企業(yè)的根。近年來(lái),越來(lái)越多的公司意識(shí)到數(shù)據(jù)分析帶來(lái)的價(jià)值,乘坐了大數(shù)據(jù)這輛旅行車(chē)。在現(xiàn)實(shí)生活中,現(xiàn)在所有的事情都被監(jiān)視和測(cè)試,制作了很多數(shù)據(jù)流,其數(shù)據(jù)量通常比公司處理的速度快。因此,問(wèn)題來(lái)了。根據(jù)定義,大數(shù)據(jù)大的情況下,數(shù)據(jù)收集中的微小差異和錯(cuò)誤會(huì)引起重大問(wèn)題。那么如何進(jìn)行數(shù)據(jù)的處理和分析?今天小編帶大家來(lái)盤(pán)點(diǎn)。
數(shù)據(jù)處理和分析
步驟1:收集資料
對(duì)于企業(yè)來(lái)說(shuō),無(wú)論是新實(shí)施的系統(tǒng)還是舊的系統(tǒng),要實(shí)施大數(shù)據(jù)分析平臺(tái),首先都需要了解需要收集哪些數(shù)據(jù)。考慮到數(shù)據(jù)收集的難度和成本,大數(shù)據(jù)分析平臺(tái)并不收集企業(yè)的所有數(shù)據(jù),而是直接或間接相關(guān)的數(shù)據(jù)。企業(yè)應(yīng)該知道哪些數(shù)據(jù)可用于戰(zhàn)略決策或某些詳細(xì)的決策,并且分析后的數(shù)據(jù)的結(jié)果是有價(jià)值的,這也是考驗(yàn)一個(gè)數(shù)據(jù)分析師的能力。例如,一家企業(yè)只想了解生產(chǎn)線設(shè)備的運(yùn)行狀態(tài)。此時(shí),僅需要收集影響生產(chǎn)線設(shè)備性能的關(guān)鍵參數(shù)。再例如,在產(chǎn)品售后服務(wù)中,公司需要了解產(chǎn)品使用狀態(tài),購(gòu)買(mǎi)組別和其他信息,這些數(shù)據(jù)對(duì)于支持新產(chǎn)品開(kāi)發(fā)和市場(chǎng)預(yù)測(cè)非常重要。因此,建議公司在執(zhí)行大數(shù)據(jù)分析計(jì)劃時(shí)對(duì)項(xiàng)目目標(biāo)進(jìn)行準(zhǔn)確的分析,這更容易實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。
大數(shù)據(jù)收集過(guò)程的困難主要是由于并發(fā)數(shù)量高,因?yàn)榭赡苡谐汕先f(wàn)的用戶同時(shí)訪問(wèn)和操作,例如12306網(wǎng)和淘寶網(wǎng),他們的并發(fā)訪問(wèn)量在2007年達(dá)到了數(shù)百人。因此您需要在集合端部署大量數(shù)據(jù)庫(kù)以提供支持。而如何在這些數(shù)據(jù)庫(kù)之間執(zhí)行負(fù)載平衡和分片也需要深入思考。
步驟2:導(dǎo)入和預(yù)處理數(shù)據(jù)
收集過(guò)程只是構(gòu)建大數(shù)據(jù)平臺(tái)的第一步。在確定需要收集哪些數(shù)據(jù)之后,下一步需要統(tǒng)一處理不同來(lái)源的數(shù)據(jù)。例如,在智能工廠中,可能存在視頻監(jiān)控?cái)?shù)據(jù),設(shè)備操作數(shù)據(jù),材料消耗數(shù)據(jù)等。這些數(shù)據(jù)可以是結(jié)構(gòu)化的或非結(jié)構(gòu)化的。目前,企業(yè)需要使用ETL工具從分布式和異構(gòu)數(shù)據(jù)源(例如關(guān)系數(shù)據(jù)和平面數(shù)據(jù)文件)中提取數(shù)據(jù)到臨時(shí)中間層進(jìn)行清理,轉(zhuǎn)換和集成,并將這些數(shù)據(jù)從前端導(dǎo)入到集中式大型分布式數(shù)據(jù)庫(kù)或分布式存儲(chǔ)集群最終被加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,并成為在線分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。對(duì)于數(shù)據(jù)源的導(dǎo)入和預(yù)處理,最大的挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量,每秒的導(dǎo)入量通常達(dá)到100萬(wàn)億甚至千兆位。
步驟3:統(tǒng)計(jì)分析
統(tǒng)計(jì)和分析主要使用分布式數(shù)據(jù)庫(kù)或分布式計(jì)算集群對(duì)存儲(chǔ)在其中的海量數(shù)據(jù)進(jìn)行常規(guī)分析和分類,以滿足最常見(jiàn)的分析需求。在這方面,一些實(shí)時(shí)需求將使用EMC的GreenPlum,Oracle的Exadata和基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理或基于半結(jié)構(gòu)化數(shù)據(jù)的需求則可以使用hadoop。數(shù)據(jù)的統(tǒng)計(jì)分析方法很多,例如假設(shè)檢驗(yàn),顯著意義檢驗(yàn),差異分析,相關(guān)分析,T檢驗(yàn),方差分析,卡方分析,偏相關(guān)分析,距離分析,回歸分析,簡(jiǎn)單回歸分析,多元回歸分析,逐步回歸,回歸預(yù)測(cè)和殘差分析,嶺回歸,邏輯回歸分析,曲線估計(jì),因子分析,聚類分析,主成分分析,因子分析,快速聚類和聚類方法,判別分析,對(duì)應(yīng)分析,多元對(duì)應(yīng)分析(最佳規(guī)模分析),自舉技術(shù)等。在統(tǒng)計(jì)和分析部分,主要特征和挑戰(zhàn)是分析中涉及的大量數(shù)據(jù),這將大大占用系統(tǒng)資源,尤其是I / O。
步驟4:價(jià)值挖掘
與以前的統(tǒng)計(jì)和分析過(guò)程不同,數(shù)據(jù)挖掘通常沒(méi)有任何預(yù)設(shè)的主題,主要是基于對(duì)現(xiàn)有數(shù)據(jù)的各種算法的計(jì)算,從而達(dá)到預(yù)測(cè)的效果,以實(shí)現(xiàn)一些高級(jí)的數(shù)據(jù)分析需求目的。典型的算法包括用于聚類的Kmeans,用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes。使用的主要工具是Mahout for Hadoop。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要在于用于挖掘的算法非常復(fù)雜,并且計(jì)算中涉及的數(shù)據(jù)量和計(jì)算量非常大。常用的數(shù)據(jù)挖掘算法主要是單線程的。
以上就是進(jìn)行數(shù)據(jù)處理和分析的四大步驟,分別為收集資料、導(dǎo)入數(shù)據(jù)和預(yù)處理、統(tǒng)計(jì)分析和價(jià)值挖掘。隨著數(shù)據(jù)在我們生活中發(fā)揮著越來(lái)越重要的作用,對(duì)于數(shù)據(jù)的處理和分析也成為了一項(xiàng)必備的技能。希望小編今天對(duì)其步驟的整理與盤(pán)點(diǎn)可以對(duì)大家日后的工作有所幫助,加油!
[免責(zé)聲明]
文章標(biāo)題: 如何進(jìn)行數(shù)據(jù)處理和分析?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。