關(guān)于數(shù)據(jù)分析,有很多人都有疑問,如何啟動(dòng)數(shù)據(jù)分析?哪些工具用于數(shù)據(jù)分析?怎樣做資料分析?接下來,小編就將介紹大數(shù)據(jù)分析工具,大數(shù)據(jù)的分析工具主要有哪些的相關(guān)內(nèi)容,一起來看看吧。
大數(shù)據(jù)分析工具
對(duì)于數(shù)據(jù)分析,我一直強(qiáng)調(diào)業(yè)務(wù)就是業(yè)務(wù),它通過業(yè)務(wù)的分析邏輯把它映射到數(shù)據(jù)分析的處理邏輯,而數(shù)據(jù)分析工具正是幫助我們達(dá)到目的的手段。
然而,你說工具并不重要,他也很重要。像什么道路、選擇什么交通方式、合適的工具能讓我們更快到達(dá)終點(diǎn)。不同的數(shù)據(jù)分析環(huán)節(jié)不同,也要選擇不同的工具,甚至選擇更容易上手。
對(duì)于企業(yè)來說,數(shù)據(jù)分析人員一般分為業(yè)務(wù)和技術(shù)兩類,他們的能力和工作內(nèi)容有很大不同,對(duì)工具的要求也各有側(cè)重。
每個(gè)人在尋找數(shù)據(jù)分析時(shí),必須分清是技術(shù)還是業(yè)務(wù),與自己的職業(yè)傾向是否相匹配。分析師需要技術(shù)和業(yè)務(wù)兩個(gè)方面,因此相應(yīng)的工具將重點(diǎn)放在這些屬性上。
利用工具也依賴于企業(yè)需求和環(huán)境。為什么數(shù)據(jù)分析人員招小企業(yè)實(shí)際上是Excel做報(bào)表,大企業(yè)找數(shù)據(jù)分析就是玩弄Python,R?這取決于企業(yè)的數(shù)據(jù)架構(gòu)。
根據(jù)IT的觀點(diǎn),數(shù)據(jù)工具可以分為兩個(gè)維度:
概念性的數(shù)據(jù)庫(kù)設(shè)計(jì)和數(shù)據(jù)庫(kù)語言,這方面不需要深入鉆研,畢竟專業(yè)DBA。但至少要知道如何存儲(chǔ)數(shù)據(jù)、基本結(jié)構(gòu)和數(shù)據(jù)類型。SQL查詢語言是最基本和最熟練的。可從常用selece查詢、update修改、刪除delete、insert插入的基本結(jié)構(gòu)和讀取開始。
Access這是最基本的個(gè)人數(shù)據(jù)庫(kù),通常用于個(gè)人或部分基本數(shù)據(jù)存儲(chǔ);MySQL數(shù)據(jù)庫(kù),部門級(jí)或因特網(wǎng)數(shù)據(jù)庫(kù)應(yīng)用都需要MySQL數(shù)據(jù)庫(kù),在這個(gè)時(shí)候,掌握數(shù)據(jù)庫(kù)的庫(kù)結(jié)構(gòu)和SQL語言的數(shù)據(jù)查詢能力至關(guān)重要。SQLServer2005或以后的版本,對(duì)于中小企業(yè),一些大企業(yè)也可以采用SQLServer數(shù)據(jù)庫(kù),其實(shí)這個(gè)時(shí)候本身除了數(shù)據(jù)存儲(chǔ)外,還包括數(shù)據(jù)報(bào)表和數(shù)據(jù)分析。
Oracle數(shù)據(jù)庫(kù)都是大型數(shù)據(jù)庫(kù),主要是企業(yè)級(jí)數(shù)據(jù)庫(kù),特別是對(duì)大型企業(yè)或者需要大容量存儲(chǔ)的數(shù)據(jù)庫(kù),一般大型數(shù)據(jù)庫(kù)公司提供非常好的數(shù)據(jù)整合應(yīng)用平臺(tái)。
BI層,它并非真正意義上的數(shù)據(jù)庫(kù),而是基于之前的一個(gè)企業(yè)級(jí)應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)。DataWarehouse,基于DW的數(shù)據(jù)存儲(chǔ)基本上都是一個(gè)商業(yè)智能平臺(tái),綜合了各種數(shù)據(jù)分析、報(bào)告、分析和展示。
企業(yè)存儲(chǔ)的數(shù)據(jù)需要讀寫,需要展示,報(bào)表工具是應(yīng)用最廣泛的工具,尤其在國(guó)內(nèi)。過去的傳統(tǒng)報(bào)表大多解決的是呈現(xiàn)問題,現(xiàn)在衍生出一些分析式報(bào)表工具,還會(huì)和其他應(yīng)用交叉,做數(shù)據(jù)分析報(bào)表,通過界面開放功能、填報(bào)、決策報(bào)告等功能,就能實(shí)現(xiàn)商業(yè)智能的早期功能。
BI(商業(yè)智能)工具,例如Tableau、PowerBI、FineBI、Qlikview,涵蓋報(bào)表、數(shù)據(jù)分析、可視化等多個(gè)層面。還可以連接到數(shù)據(jù)倉(cāng)庫(kù),建立OLAP分析模型。
實(shí)際上有很多分析工具,Excel是我們使用最多的一層。
Excel軟件,先版本越高越好,這是肯定的。在excel中,許多人只掌握了5%的Excel功能,Excel功能非常強(qiáng)大,甚至可以完成所有的統(tǒng)計(jì)分析工作!但是我也常說,Excel處理Excel的統(tǒng)計(jì)工具比專門學(xué)習(xí)統(tǒng)計(jì)軟件要好得多。
SPSS軟件:當(dāng)前版本是18,名字也改為PASWStatistics;我從3.0開始進(jìn)行Dos環(huán)境中的編程分析,到現(xiàn)在版本的變化,SPSS社會(huì)科學(xué)統(tǒng)計(jì)軟件包的變化,從對(duì)醫(yī)學(xué)、化學(xué)等開始重視商業(yè)分析,現(xiàn)在已經(jīng)成為預(yù)測(cè)分析軟件。
SAS軟件:SAS相對(duì)SPSS而言功能更強(qiáng),SAS是平臺(tái)化的,EM挖掘模塊平臺(tái)整合,相對(duì)來說,SAS學(xué)起來比較困難,但如果對(duì)SAS的掌握更有價(jià)值,如離散選擇模型、抽樣問題、正交實(shí)驗(yàn)設(shè)計(jì)等,相對(duì)來說,學(xué)習(xí)材料比較困難。
其他還有Python和R,我們稍后會(huì)詳細(xì)討論。
執(zhí)行層也稱為數(shù)據(jù)可視化,上面的每個(gè)工具都提供了一定程度的展示功能。但說企業(yè)級(jí)最常用的還是BI,做分析,做報(bào)告。
PS:應(yīng)該指出,這個(gè)分類并非軟件的不同之處,它只是為了演示應(yīng)用軟件。有時(shí)候我們只用數(shù)據(jù)庫(kù)做報(bào)告分析,有時(shí)報(bào)告只做分析,有時(shí)只做分析,當(dāng)然,當(dāng)然,分析是報(bào)告,報(bào)表是數(shù)據(jù)存儲(chǔ)!
申請(qǐng)方案:
1.一般辦公要求下的數(shù)據(jù)處理;
2.數(shù)據(jù)管理、儲(chǔ)存和中小企業(yè)(許多國(guó)有企業(yè)使用);
3.對(duì)在校生,教師進(jìn)行簡(jiǎn)單統(tǒng)計(jì)(如方差分析、回歸分析);
4.與Word、PowerPoint一起編寫數(shù)據(jù)分析報(bào)告;
5.數(shù)據(jù)分析師的主要分析工具(數(shù)據(jù)分析部分提供的輔助工具);
6.部分商業(yè)雜志、報(bào)紙圖表制作(數(shù)據(jù)可視化);
利益:
1.容易上手;
2.豐富的學(xué)習(xí)資源;
3.Excel能做很多事情,例如建模、可視化、報(bào)表、動(dòng)態(tài)圖表;
4.在進(jìn)一步學(xué)習(xí)其他工具之前,幫助你理解許多操作的意義(例如Python,R);
缺點(diǎn):
1.深入學(xué)習(xí)需要掌握VBA,難度依然很大;
2.當(dāng)數(shù)據(jù)量大時(shí)出現(xiàn)卡頓現(xiàn)象;
3.對(duì)于Excel2016版,Excel數(shù)據(jù)文件本身可以容納108萬行數(shù)據(jù),而不需要其他工具,因此不適合處理大規(guī)模數(shù)據(jù)集;
4.內(nèi)部建立的統(tǒng)計(jì)分析方法過于簡(jiǎn)單,實(shí)用價(jià)值不大;
5.與Python,R等開放源碼軟件,如Python,R語言,正版Excel需要付費(fèi),例如我使用office365.一年要花300多美元(很值)>>。
使用場(chǎng)景:通過擴(kuò)展第三方R包,R所能完成的工作幾乎覆蓋所有需要數(shù)據(jù)的領(lǐng)域。為了進(jìn)行一般性的數(shù)據(jù)分析或?qū)W術(shù)數(shù)據(jù)分析,R可以做的事情包括但不限于:
1.數(shù)據(jù)的清理和整理;
2.網(wǎng)絡(luò)爬蟲;
3.直觀的數(shù)據(jù);
4.統(tǒng)計(jì)假設(shè)檢驗(yàn)(t檢驗(yàn)、方差分析、卡方檢驗(yàn)等);
5.統(tǒng)計(jì)建模(線性回歸、邏輯回歸、樹模型、神經(jīng)網(wǎng)絡(luò)等);
6.輸出數(shù)據(jù)分析報(bào)告(Rmarkdown);
就像Python一樣,R語言和Python都是數(shù)據(jù)分析工具,需要編程,而R專門用來進(jìn)行數(shù)據(jù)分析,科學(xué)計(jì)算和數(shù)據(jù)分析只是Python的一個(gè)應(yīng)用分支,Python可以用來開發(fā)網(wǎng)頁,開發(fā)游戲,進(jìn)行系統(tǒng)的后端開發(fā),以及運(yùn)行維護(hù)。
Python目前在數(shù)據(jù)分析領(lǐng)域趕超了R,并且在某些方面已經(jīng)超越了R,如機(jī)器學(xué)習(xí)、文本挖掘等偏編程領(lǐng)域,但在偏統(tǒng)計(jì)領(lǐng)域仍然占據(jù)優(yōu)勢(shì)。Python在數(shù)據(jù)分析方面的發(fā)展,很多地方借鑒了R語言的一些特點(diǎn)。所以,如果你現(xiàn)在還沒有開始學(xué)習(xí),想要學(xué)習(xí)R或Python,那么就從Python開始。
不管是Python還是R,學(xué)起來都比較簡(jiǎn)單,但是如果你同時(shí)學(xué)過兩種,在很多地方都很相似,所以建議你不要同時(shí)學(xué)。在其中一個(gè)掌握了一定程度之后,再開始另一次學(xué)習(xí)。
Python該怎么辦?
1.網(wǎng)絡(luò)數(shù)據(jù)爬行,利用Python可方便地編寫強(qiáng)大的爬蟲,捕捉網(wǎng)絡(luò)數(shù)據(jù);
2.數(shù)據(jù)清洗;
3.數(shù)據(jù)建模;
4.根據(jù)業(yè)務(wù)設(shè)想和實(shí)際問題制定數(shù)據(jù)分析算法;
5.數(shù)據(jù)可視化(個(gè)人感覺不如R);
6.高級(jí)數(shù)據(jù)挖掘和分析領(lǐng)域,如機(jī)器學(xué)習(xí)、文本挖掘;
分析員的日常工作大部分是做報(bào)告,而數(shù)據(jù)分析員更多使用BI報(bào)表。
BI的全稱業(yè)務(wù)智能,在傳統(tǒng)企業(yè)中,它是一套解決方案。高效整合企業(yè)數(shù)據(jù),快速生成報(bào)表,作出決策。包含數(shù)據(jù)倉(cāng)庫(kù),ETL,OLAP,權(quán)限控制等模塊。
BI工具主要有兩種用途。首先,使用BI生成自動(dòng)化報(bào)表,數(shù)據(jù)類工作每天都要接觸到大量的數(shù)據(jù),對(duì)它們進(jìn)行分類和匯總,工作量非常大。BI可以自動(dòng)完成這些工作,從數(shù)據(jù)規(guī)整、建模到下載。
另外,利用BI的可視化功能,它比Excel提供了更豐富的可視化功能,操作方便,而且美觀,如果每人每天畫圖需要兩個(gè)小時(shí),BI就會(huì)減少一半。BI是企業(yè)級(jí)應(yīng)用程序,通過它可以連接企業(yè)數(shù)據(jù)庫(kù),實(shí)現(xiàn)企業(yè)級(jí)報(bào)表的制作。其中包括數(shù)據(jù)體系結(jié)構(gòu)。
就BI而言,Tableau、PowerBI、FineBI、Qlikview等BI(商業(yè)智能)工具,涵蓋報(bào)表、數(shù)據(jù)分析、可視化等多個(gè)層面。還可以與數(shù)據(jù)倉(cāng)庫(kù)相連接,建立OLAP分析模型。我覺得,要想快速上手?jǐn)?shù)據(jù)分析,前期養(yǎng)成數(shù)據(jù)思維,BI工具無疑是最容易上手的。以上就是大數(shù)據(jù)分析工具,大數(shù)據(jù)的分析工具主要有哪些的相關(guān)內(nèi)容,感謝您的閱讀。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)分析工具,大數(shù)據(jù)的分析工具主要有哪些
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。