1.1 什么是大数据
大数据不是一项单一的技术,而是一个概念,是一套技术,是一个生态圈。大数据技术和专业术语多达几十个,记录了大数据从炒作到成熟并进入主流应用的过程。数据科学家、预测分析、开放政府数据,都属于大数据范畴。大数据技术也逐渐变得越来越复杂。政府和企业希望从自己的数据中获得更多的信息,软件厂商希望将“大数据解决方案”融入公司的产品之中。在大数据软件公司的助推下,政府和企业已经有能力利用廉价的服务器、开源技术和云计算来进行开销不大的大数据部署。
对于什么是“大数据”,不同的研究机构从不同的角度给出了不同的定义。Gartner认为:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。麦肯锡认为:“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据”。根据维基百科的定义,“大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”。IDG认为:“大数据一般会涉及2种或2种以上数据形式,它要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年会增长60%以上”。
从客户的角度来看,大数据技术的战略意义不在于拥有多么庞大的数据信息,而在于对这些含有意义的大数据进行专业化处理,从中获得商业价值。比如,以色列已经把所有政府部门的视频整合到一个大数据管理平台上,并在这个平台上开发了一套智慧安防系统。在这个系统上,只要把某一个人的人脸或人的主要特征数据输入系统,就能从海量的监控记录中查出同那个人相关的视频片段,并自动变成一个有时间顺序的片子。
随着以云计算、大数据、物联网等为代表的新一代信息技术的发展和应用,世界经济进入了大转型时代,主要发达国家以及国内发达省市都紧盯紧跟这一轮产业变革,试图抢占未来经济发展先机。大数据是一种产业,这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”,完成“数据变现”。这种加工能力体现在技术上就是大数据分析。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据最核心的技术就是在于对于海量数据进行采集、存储、管理和分析。