| 企服解答
大數(shù)據(jù)Big Data是指大小超出了常用的軟件工具在運(yùn)行時(shí)間內(nèi)可以承受的收集,管理和處理數(shù)據(jù)能力的數(shù)據(jù)集;大數(shù)據(jù)是目前存儲(chǔ)模式與能力、計(jì)算模式與能力不能滿足存儲(chǔ)與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對(duì)概念。
大數(shù)據(jù)的含義是什么
大數(shù)據(jù)最根本之處在于信息收集方式出現(xiàn)了重大變化與革新。大數(shù)據(jù)的出現(xiàn)與大量信息直接在網(wǎng)絡(luò)呈現(xiàn)關(guān)系非常緊密。
大數(shù)據(jù)的采集。科學(xué)技術(shù)及互聯(lián)網(wǎng)的發(fā)展,推動(dòng)著大數(shù)據(jù)時(shí)代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片,數(shù)據(jù)計(jì)量單位已從從Byte、KB、MB、GB、TB發(fā)展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數(shù)據(jù)時(shí)代數(shù)據(jù)的采集也不再是技術(shù)問題,只是面對(duì)如此眾多的數(shù)據(jù),我們?cè)鯓硬拍苷业狡鋬?nèi)在規(guī)律。
數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)。在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),我們應(yīng)當(dāng)首先思考我們的數(shù)據(jù)分類標(biāo)準(zhǔn)是什么?數(shù)據(jù)是來自于哪個(gè)領(lǐng)域的數(shù)據(jù)?我們的目標(biāo)是什么?比如說我們按照領(lǐng)域分類,數(shù)據(jù)來自于數(shù)據(jù)科學(xué)領(lǐng)域,而該領(lǐng)域主要針對(duì)的是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)的處理目標(biāo)是轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)以及小數(shù)據(jù)。如果是對(duì)計(jì)算機(jī)領(lǐng)域來說,那么數(shù)據(jù)可以分為int(整型),float(浮點(diǎn)型),bool(布爾型)等。
| 拓展閱讀
大數(shù)據(jù)的特點(diǎn):
1、數(shù)據(jù)體量巨大
現(xiàn)如今,一般的首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實(shí),就目前而言,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。
2、數(shù)據(jù)價(jià)值密度低
與傳統(tǒng)信息系統(tǒng)相比,大數(shù)據(jù)中的數(shù)據(jù)價(jià)值密度相對(duì)較低,這就需要更快,更方便的方式來完成數(shù)據(jù)值提取過程,這也是當(dāng)前大數(shù)據(jù)平臺(tái)所關(guān)注的核心競爭力之一。實(shí)際上,早期Hadoop和Spark平臺(tái)之所以能夠脫穎而出的重要原因是它們的數(shù)據(jù)處理(排序)速度相對(duì)較快。
3、數(shù)據(jù)多樣化
數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價(jià)格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)的含義是什么
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。