数据到底多大才算大数据?

2014-10-28
admin

大数据无处不在,人们每天创造出越来越多的应用来收获其中的价值,无论是在我们的个人生活还是专业领域,从很多方面来说,大数据是数据产生速度的一种反映,实际上有分析家预计到2020年,数据产生的速度,将会是如今数据产生速度的50倍。

一方面,科学数据的增长等,加速了这种数据的猛增,举例来说:欧洲研究组织进行的核试验每秒钟能产生40TB的数据。

另一方面,一些非常积极的社会和经济变化,也加剧了数据的泛滥,想想这些例子,迅速普及的移动设备,有GPS功能和富媒体,还有社交网络让全世界数十亿人进行数码联系,它们一起让人们有了新的生活方式,各人间能够进行及时、瞬时,而且几乎不听的数据交换,这些和很多生活中即将出现的做事方式,如今产生的数据按从前定义就是大数据。

大数据——一个不算秘密的秘密,就是云计算的特点让它水涨船高,其实就是因为云计算的属性,比如经济规模,消费承受力,灵活性,延伸性等,这些都让我们能够创造大数据,并应对其挑战,反过来这些大数据也主宰并让未来的设计繁荣,并且加强扩展云计算,他们共同形成永不停歇的发展循环。简单来说,大数据挑战并且让所有人在暴露在信息基础设施的细节和极限之下,推动用户寻找思想领袖,并强迫他们实验,并寻求下一代突破,当这一切发生后,人们就能够解决之前解决不了的问题,他们能够应对之前无法应对的挑战。

我们可以提出这样的问题,比如:到底多大算大数据?这其实是个非常有趣的问题,大家的回答目前好像很不一致,不过这种模棱两可并名优阻挡数据的使用,一种比较普遍的误解就是大数据就是根据数据的大小来确定的,如果它是数据,而且还很大那它就一定是大数据,数据大小事判断的原则之一,大数据很多其它方面的属性跟数据的大小关系不大,例如:考虑数据产生的速度和同时在产生数据的数据源数量和种类。

我们来看看,到底是通过什么来界定大数据的。我想我们都会同意,一个40MB的PPT演示文件、1TB的医疗图像和1PB的电影文件都很大,不过我们的问题是,它们是大数据吗?仅从它们的大小来说,我可以争辩说它们不是大数据,今天看来很大的文件明天也许就不算大了,不过我会说它们都是大数据,因为它们中的每一个都将应用它们的普遍技术推到了极限。40MB的PPT演示文件是大数据,因为没法跟同事和客户用电子邮件分享;1TB的医疗图像是大数据,因为无法轻易并充分地在远程显示器上实时显示,以供医生在为病人进行诊断使用;1PB的电影是大数据,因为无法在有效时间内对影片进行合理剪辑。

这是个好的开始,我们已经纠正了对于大数据的最大误解,那就是大数据就是看数据多大,我们能看到大数据有各种属性,大小只是其中之一,它们还能调整到系统的性能限制或是商业需求,但像数据产生速度这样的属性呢?或是产生数据的来源数量和种类呢?这些没法满足的定义,这就是为什么大数据能适用于从大小上来说根本不大的数据,有些能够成为大数据是因为它们的份数,因为它们由很多以某种关系联系起来的小数据碎片组成,这些数量众多的小数据组合在一起,就是大数据。比如说这些份数据,能在智能电表上看到,它们被用于世界范围的每个家庭,数据被传到电力公司,记录每家每20到30分钟产生和消耗的电力。

现在把这个数量乘以一个城市的家庭数量或是一个小镇的家庭数,大数据指的就是在一定时间之内或是在一定地理范围之内需要分析的数据份数,大份数数据还能在日志中找到,数据输入的次数非常之多,合在一起就形成大数据。在交易处理中也有大数据,很多交易合在一起,产生的数据库就有大数据。大数据的另一个又去的方面就是从结构来看,大数据并不都是一样的,有些大数据有固定的格式。比如:交易型数据库,每一条录入信息都能分成几种范畴,每一个都有明确定义的数据类型。有些大数据包含博客类录入信息,里面包含文本、图表、图像、声音和视频,这些数据都存在一起。

这就带来了大数据的最后一方面,生成的多样性以及相互的关联性。大数据的生成,从应用程序自动生成的信息,比如天气预报的图像到简单的录入信息;比如人们录下的日常生活片段;或者是键入的文字信息,大数据的更新速度也很惊人,而且具有互动性和增量性,产生的数据随时间不断变化,而且随着时间推移,数据会越来越准确,而且产生运算并推导出更多与数据相关的数据。

不管大小如何,数据的产生速度和来源如何,或是数据的哪一部分,大数据趋驱使我们去尽力理解这种混沌,大数据驱使我们在不断变化的数据里寻找它们的意义所在,并且寻找所产生数据之间的联系。对这种相互关系的理解,加上能收获藏在大数据里信息解开了大数据的价值,而这以能够处理我们大数据的挑战为前提。

收集、分析并且理解大数据,已经成为了我们如今各异的策略,不过这会成为我们明天的现实生活,进行合理的渐进性分析要看有没有足够数据,让你的结果有意义并且准确,这样才能带来更精准的行动,回报是给公司和客户带来更高利润并省下更多钱。所以说到大数据,问题其实不是为什么要关注大数据,而是该如何接近大数据,和如何能现在就从中获益。

在不久的将来,大数据也能被广泛的应用于建设行业。造价通也秉承着大数据时代技术创新,将云计算、云存储融合进大数据平台战略中,为整个建设行业创造更多创新的云服务。相信造价通这个大数据平台将来定会引领行业人士一起去解开大数据之中的宝贵价值。

发表评论
评论通过审核后显示。