在我宣讲大数据的材料中,我引用过老外的一句话:

“We swim in a sea of data… with the sharks… and the sea level is rising rapidly.”
我们在数据的海洋中遨游,而水中满是鲨鱼,并且海平面在快速上升。

这话绝不是夸张。需知,我们今天就生存在一个大数据的世界中:每一秒,全球发送电子邮件300万封;每一分,YouTube上传20小时视频信息;每一天,微博新贴1亿条、淘宝交易2000万笔,而Google处理数据近30PB……

你可能难以想象的是,对于任何一个你我这样的普通家庭,每天消费数据多达400MB。这是什么概念呢?15年前,DOS操作系统只需要一张软盘便可装入,而软盘的容量是1.2MB(5″盘)或1.44MB(3″盘);10年前,Linux操作系统需要两张软盘,Windows需要一张CD,而CD的容量是650MB。从那时起,微软便挨骂不断,因为它似乎总是体积越来越大,不久Windows便需要DVD来承载了,而DVD的容量是4GB或8GB。然而今天,用手机拍摄的照片也要4MB~5MB,写一个PPT需要5MB~10MB,如果图片多则可能需要100MB以上,而一部高清电影则容量动辄5GB甚至10GB。(科普一下:1KB = 1,024字节;1MB = 1,024KB;1GB = 1,024MB;1TB = 1,024GB;1PB = 1,024TB;1EB = 1,024PB;1ZB = 1,024EB;1YB = 1,024ZB。)

为了满足这个时代的要求,我们的手机、相机配有容量巨大的扩展卡,我们存放在Flickr、Instgram上的照片多达十几或几十GB,而在Dropbox或其他网盘上,我们存储的各种文档容量高达几十、上百GB。

因此,当最近有朋友问我什么是大数据时,我告诉他们,大数据虽然是一个没有准确定义的概念,但是它无处不在、如影随行。大数据并不只是喧嚣于数据中心、云及新闻中,也早已侵入我们的家庭、我们的日常生活之中。

所谓大数据的4V特征,首当其中就是Volume(海量),系指数据量太大,难以用传统数据处理手段和工具进行处理。另外三个V是:Variety(多样),即包含人对人、人对机器、机器对机器的各种数据;Velocity(高速),即增长速度快、处理速度快;Value(价值),即创造价值高,但价值密度低。

毫无疑问,个人和家庭数据正在以惊人的速度增长,并且不只是数据量在飞速增长,每个数据单元的容量也在飞快提升。我们日常使用的不再是1MB的软盘、40MB的硬盘、数百MB的CD、数GB的DVD,1TB~2TB已经成为普通人的随身移动伴侣;我们的手机、PAD在计算和存储能力上已经超过过去的PC,所以家里或许不再配备台式PC,然而热爱影音的先锋们不仅迷恋发烧音响,也将曾经企业级解决方案的NAS搬到家中,甚至在家里设立真正意义上的家庭影院。

这就是问题的关键。个人和家庭的数据正在变得越来越大,并且数据随着时间而快速增长。想一想,你保存在各种地方,比如U盘、硬盘、网盘或云中心甚至纸上、脑海中的数据,已经非常庞大;想一想,你倾听的音乐、你交易的账单、你拨打的电话、你观看的影视,以及你的银行信息、医疗记录,你的住房、家电、家具、汽车的维护记录……这容量已经超越曾经的企业级数据,怎么也是TB级别的数据了;再想一想,这些数据正在以难以想象的速度飞增……天哪,处女座的朋友们要睡不着觉了。

这些数据,目前正以散乱的方式随处保存着,一部分合法存储在别人的系统中(如银行、运营商或政府),一部分以“上当受骗”的方式保存在莫名其妙的人手中(如各种app都在上传你的通讯录、各种健身设施都在记录你的身体状况),而一部分数据甚至没有数字化(如你的纸上笔记、你的自言自语)。假如将它们统一存储和管理,建立我们个人和家庭的全生命周期视图,我们如何存储这些数据?显然,我们需要面向个人数据的大数据解决方案。它们应该安全、灵活、低价、可扩展,并能随处访问、容易管理。云可能是合理的存储方式,但云存在于哪里,家里、数据中心或多个数据中心?

我认为,在大数据时代,数据极度冗余、信息难以采信、知识广泛滥用、智慧价值难觅。因此,我们迫切需要面向个人和家庭的大数据解决方案,创业企业家们应该能够从中把握契机。

【致歉:昨日出游未能及时更新;前日文章信息不实,那是个严肃的玩笑。】

bigdata eye