大数据是指(zhǐ)用现有的(de)计算机软硬件设施难以采集(jí)、存储(chǔ)、管理(lǐ)、分析(xī)和使用的超大规模的数据集。大数据具有规模(mó)大、种类杂、快(kuài)速化(huà)、价值密(mì)度低等特点(diǎn)(4V特性)。大数据的“大”是一个相对概(gài)念,没有具体标准,如果一(yī)定要给一(yī)个标(biāo)准,那么10-100TB通常称为大数据(jù)的门槛。
数据(jù)分(fèn)析是一个大的概念,理论(lùn)上任(rèn)何对数据进行计算、处理(lǐ)从而得出(chū)一些有意义的(de)结论的过(guò)程,都叫数据分析。从数据本(běn)身的复杂程度(dù)、以及(jí)对数据进行处理的复杂度和深度来看,可以把数据分析分为(wéi)以下4个层次:数据统(tǒng)计,OLAP,数据挖(wā)掘,大数(shù)据。
大数据分析和数据分析是有区别和联系(xì)的。这里重点关注两者的是技(jì)术要求、使用场景、业务范围(wéi)等方面的(de)区别和(hé)联系。重点要(yào)区分理(lǐ)论(lùn)研(yán)究和实(shí)际应用两方(fāng)面区别和(hé)联系。
第一:在分析(xī)方法(fǎ)上两者并(bìng)没有本质不同(tóng)
数据分(fèn)析的核心工作是人(rén)对(duì)数据指(zhǐ)标的分析、思考和解读,人脑所能承载的数据(jù)量是极其有限的。所以,无(wú)论是“传统数据分析”,还是“大数据分(fèn)析”,均需要将(jiāng)原始数据按照分析(xī)思路进行统计处(chù)理,得到概要(yào)性的(de)统计结果供(gòng)人分(fèn)析(xī)。两者在这个过程中是(shì)类似的,区别只是原始数据量大小所导致处理方式的不同(tóng)。
第二(èr):在对统计学知识(shí)的(de)使用重心(xīn)上(shàng)两者存(cún)在较大的不同
传统数据分(fèn)析”使用的知识主要围绕“能否通过(guò)少量的抽样数据(jù)来推(tuī)测真实(shí)世界(jiè)”的主题展(zhǎn)开。“大数据分析”主要是利用各种类型的全(quán)量(liàng)数据(不是抽样数据),设计统计方案,得(dé)到兼具(jù)细致(zhì)和置(zhì)信的统计结论(lùn)。
第三:与机器学习模(mó)型的关系上,两(liǎng)者有着本质差(chà)别(bié)
“传统数据分析”在大部分时候,知识将(jiāng)机器学习模型当黑盒(hé)工(gōng)具来辅助分析数据。而“大数据分析”,更多时候是两者(zhě)的紧密结合,大数据分析产(chǎn)出的不仅(jǐn)是一份分析效(xiào)果测评,后续(xù)基于此(cǐ)来升(shēng)级产品。在大数据分(fèn)析的(de)场景中(zhōng),数(shù)据分析往往(wǎng)是数据加墨的前奏,数据建(jiàn)模是数据分(fèn)析的成果。