English
创新回族学研究的平台,全方位展示回族文化的窗口!

什么样的数据才能称之为大数据?

 作者:佚名  来源:小马技术圈  点击:  评论:0 时间:2022-01-05 20:36:18




概述


图片

    什么样的数据才是大数据呢?简单的说,就是数据规模达到海量级、极快的速度流转、数据类型和来源多种多样、价值密度低而且能够反映事物真实性的数据就是大数据。

    比如Facebook每天要处理10TB的数据,这就是海量数据;这些数据每天都会变化,速度流转极快;数据可能是文字、视频、图片,类型多样;数据多但价值少;能通过分析知道用Facebook的群体是什么样的,这就是反应真实性。

    以下着重描述数据分析和大数据分析的区别以及对大数据的界定。



01

什么是数据分析



图片

    数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,未提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

    数据分析包含“数据”和“分析”两个方面,一方面包括收集、加工和整理数据,另一方面也包括分析数据,从中提取有价值的信息并形成对业务有帮助的结论。

    数据分析的成果通常以分析报告的形式呈现。对于数据分析报告,分析就是论点,数据就是论据,两者缺一不可。



02

什么是大数据分析

图片



图片

    大数据分析是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。




03

数据分析与大数据分析的区别


图片


图片
图片

01.在分析方法上,两者并没有本质不同

图片
图片


   数据分析的核心工作是人对数据指标的分析、思考和解读,人脑所能承载的数据量是极其有限的。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。两者在这个过程中是类似的,区别只是原始数据量大小所导致处理方式的不同。


图片
图片

02.对统计学知识的使用重心上,存在差异

图片
图片

    “传统数据分析”使用的知识主要围绕“能否通过少量的抽样数据来推测真实世界”的主题展开。“大数据分析”主要是利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。


图片
图片

03.与机器学习模型的关系上,有着本质差别

图片
图片

    “传统数据分析”在大部分时候,知识将机器学习模型当黑盒工具来辅助分析数据。而“大数据分析”,更多时候是两者的紧密结合,大数据分析产出的不仅是一份分析效果测评,后续基于此来升级产品。在大数据分析的场景中,数据分析往往是数据加墨的前奏,数据建模是数据分析的成果。



04

什么样的数据才能称为大数据


图片


    对大数据界定的关键词有3个:规模大、多样化、动态化。

规模大:可以从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。

多样化:可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。

动态化:数据是不停地变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。

    除了以上3点外,还需要一个关键能力,就是“处理速度快”。如果这么大规模、多样化又动态变化的数据有了,但需要很长的时间去处理分析,那不叫大数据。而是需要实现数据快速处理,借助机器,通过对这些数据进行快速的处理分析,获取想要的信息或者应用的整套体系,才能称为大数据。



图片

END

    数据可以确切的比喻为原油,而从数据中提取汽油就是数据分析,这样它会变得有价值。数据科学、数据分析和大数据已开始进入人们眼球,震撼世界。最重要的是,数据分析在企业主广泛应用,使人们进入了数字时代的下一个成功的阶段。