(第44期,供2013年11月29日学习使用)
《保密工作》
2013
年第
7
期,重点文章核心内容导读——
“大数据”专题
2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志发表了一篇引人注目的论文,解释了谷歌为什么能够预测冬季流感的传播,令公共卫生官员和计算机科学家感到震惊。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条搜索指令,如此庞大的数据资源足以支撑和帮助它通过分析人们的搜索记录完成这个预测。在将得出的预测与美国疾控中心的记录情况进行对比后,谷歌发现了45条检索词条的组合,将这些词条用于特定的数学模型后,他们的预测与官方数据相关性高达97%。他们不但能判断出流感是从哪里传播出来的,而且非常及时。
这就是大数据,它以一种前所未有的方式,闪亮登场。
大数据的概念
是谁首先对大数据这一概念进行了阐释?有两种说法:一说是20世90年代初期,互联网刚刚出现时,数据仓库的创始人比尔·埃蒙;一说是2009年,世界著名咨询机构麦肯锡公司。
资料显示,最初,大数据是指那些不断增长、类型复杂、短时间难以分析和处理的海量数据,其已经超出了一般电脑在处理数据时所能使用的内存量,普通的软件工具难以捕捉、存储、管理和分析,因此工程师们必须改进处理数据的工具,导致了新处理技术的诞生。目前,大数据主要是指对海量数据进行开发与利用的技术及相关政策标准,实现由“拨云散雾见数据”到“腾云驾雾用知识”的转变。实际上,到目前为止,大数据并非一个确切的概念,人们对其也没有一个标准的定义,只是对大数据的本质和特点基本达成了共识。
大数据的本质
涂子沛在《大数据》一书中指出:“(美国)之所以要称之为战略,是因为‘大数据’之‘大’,并不仅仅在于其‘容量之大’。当然,由于数据容量的爆炸,数据的收集、保存、维护以及共享等任务,都成为具有研究意义的现象和挑战。但‘大数据’之大,更多的意义在于:人类可以‘分析和使用’的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值。”也有专家一针见血地指出:大数据的核心,就是预测。
当前,比较普遍的观点认为,大数据的本质既包含不断增长的海量复杂数据,也涉及获取、管理和应用这些海量数据全生命周期的各种关键技术和解决方案。海量数据存储、数据挖掘、图像视频智能分析、信息感知、信息传输、信息安全等技术都与大数据密切相关。
大数据不是指一般意义上的数据规模大。例如,银行数据库中的数据实时产生增长,数据量庞大,但不能称之为大数据,因为其具有明确的格式,且尽在银行的掌控之中。
能称之为大数据的,其特点可概括为4个“V”:总量(Volume), 持续快速增加的数据量达到 PB、EB或ZB的级别(1PB=1024TB、1EB=1024PB、1ZB=1024EB);多样(Variety),涉及文本、音频、视频、图像、关系数据等多种数据格式;价值(Value),数据中蕴藏着重要的知识,但湮没于海量数据之中,“浓度”不高,难以直接发现;速度(Velocity),一方面数据增长迅猛,另一方面要求数据的处理速度快,具有明显的时效性。