作为新一轮工业革命的重要内容,正在快速发展的大数据成为世界各国争相抢夺的制高点。数据日益渗透生活的时代,大数据与人们的生产生活有着越来越密切的关系。
“多大的数据量才谈大数据?”“大数据到底有多大?”——这是一个经常被问到的问题。提到大数据,就得说这个数据信息量。
大数据想我们常见的有形状的物体那样体积大吗?还是像我们说常见的水等液体那样的容积大?还是……好像这些都不是。
提到大数据,就得说这个数据信息量,一般的理解应该会是数据量的大小。然后真正所谓的“大数据”,并不是在于它的数据量有多么大,而是通过对相对全量的、繁杂的数据进行分析,找出相关的规律,从而实现对未来的预测,或者用来改善原先的方案。所以说,大数据有5v特点(ibm提出):volume(大量)、velocity(高速)、variety(多样)、value(低价值密度)、veracity(真实性)。
随着大数据的发展,现在对大数据的特征有了重新的认识,从原来的5v变成了现在的7v:
容量(volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(variety):数据类型的多样性;
速度(velocity):指获得数据的速度;
可变性(variability):妨碍了处理和有效地管理数据的过程;
真实性(veracity):数据的质量;
复杂性(complexity):数据量巨大,来源多渠道;
价值(value):合理运用大数据,以低成本创造高价值。
从大数据特征的转变也可以看出,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1. 可视化分析。也就是所的数据全生命周期的可视化监控,用于管理产业的数据,监控数据在整个生命周期内的流动,从采集、清洗、加工、追溯、存储到融合、流通、评估、增值的生命循环过程,并以可视化技术让数据情况一目了然。
2. 数据挖掘分析。大数据分析的理论核心就是数据挖掘分析,从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,包括利用预测模型,机器学习,数据挖掘等技术来分析当前及历史数据,从而对未来,或其他不确定的事件进行预测。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。