昨天我说,数据是没有价值的,而大数据就是大垃圾,我并不是调侃,也不是赌气,而是真实情况:数据本身,是根本不可能有价值的。

数据是什么?开关打开是1、开关关闭是0,高电平是1、低电平是0,或者用磁介质、光电质的不同状态表示 1 和 0——总之是一堆二进制数字串。你说1010110 0101001 1001是什么意思,它有什么价值?它没有任何价值,它只是我随手在键盘上打出的一串 1 和 0 而已。

好,不那么物理,接近人类一点,给个数据:37.5。它是什么意思,它有什么价值?学生看了或许想,糟糕,考试没及格;骑行党看了或许说,才 37.5km,小 case 走起!

但如果数据变成像下面这样,它就有意义了:

姓名:陈书悦
性别:女
年龄:12 岁
体重:1200 kg
体温:37.5 ℃

这时候,陈书悦小朋友的家长就该着急了:她发烧了呀,得赶紧看医生去。很显然,这时候数据的价值就体现出来了:它不仅可以指导陈书悦小朋友的家长,也是医生诊断病情的基础。但是这个时候,从 37.5 到 37.5 ℃,已经从数据变成信息。

信息必须真实可信才有价值。写这篇文章的陈书悦,真实年龄虽然未知(你想知道吗?),但可能不是 12 岁,所以这个信息值得疑问的;陈书悦不管多胖(真实的陈书悦一点都不胖),她毕竟不是大象,体重 1200kg 肯定是错误信息,有充足理由可以去除。类似这样的内容,在数据到信息的处理过程中,应该予以清洗。

信息虽有价值,但价值不高(所以坏人们经常故意制造信息不对称,通过屏蔽来人为提高价值),相比之下知识更有价值。比如成年人看到今天气温 25 ℃ 的预报,就知道天气很舒适,而“穿衣指数”这样的知识则可以指导小朋友、外来客的着装。洗车指数、晨练指数也可以起到类似的作用。

智慧当然比知识更高明。穿衣指数只能指导你基本的冷暖,而穿衣怎样混搭才漂亮,却不是每一个人都 Hold 得好的。同样地,体重和健康对于一些人根本不是问题,对于更多人减肥却是老大难问题。你得承认,就算你上学上到博士、你的知识车载斗量,你还是未必懂得怎么穿衣服(陈书悦博士当然例外,她很会穿衣服的——因为她很智慧嘛,哈哈)。

如果说数据根本没有价值,信息有些价值、知识很有价值的话,那么智慧的价值则高得多,甚至无法衡量。现实点说,这也是为什么做数据搬运工 ETL 工程师和他的项目很便宜,而做咨询的业务分析顾问则要贵得多。

有这么一个小故事,生动说明了智慧的价值。它说:某公司进口设备发生故障,工程师检查了好久找不到原因,只好请原厂商的德国专家前来诊断。德国专家在设备跟前听来听去,最后用粉笔划了一个道儿,说,打开设备,将此处的线圈减少 16 匝,故障即可排除。工程师照办之后,设备果然恢复正常。德国专家因此收费1万美元。或问,就划个粉笔道儿而已,凭啥收费 1 万美金?德国专家笑道:划个粉笔道儿 1 美元,知道在哪划道儿,9999 美元。

数据-信息-知识-智慧的演进关系,称为DIKW体系,我之前写过多篇相关文章。DIKW 体系又被称为“信息金字塔”,数据在塔底、智慧在塔尖,形象地告诉人们,通过挖掘大量的数据“金矿”,才能得到一丁丁点儿智慧“金子”。

这就像,前几天有人在微信朋友圈上发照片,说花了 1.6 万赌了块石头,打开一看是这样子滴,大家给个价儿。然后有人回复道:20 元。我说,你太不厚道了,好歹也给个 100 元嘛。石头的主人说:OK,你拿走~!原来是我太厚道了。

这就是数据金矿、数据资产的真相:数据只是数据价值的“原石”,数据是否有价值,是不由数据本身决定的。

那么,为什么人们那么强调数据,抛出“大数据”的概念,并且恶狠狠地说“得数据者得天下”呢?除了很多时候人们口中的“数据”其实是“信息”的概念差异之外,更主要是因为,在DIKW体系中,传统 IT 厂商主要只能搞定从数据到信息这个层次的问题,诸如开发应用产生数据、开发平台存储数据、整合数据进行展现、挖掘数据进行分析,所谓“屁股决定脑袋”,卖什么吆喝什么呗。

在大数据时代,人们急切盼望数据资产能够变成现钱,所谓 Data monetization 是也。如何变现?之前的《大数据成熟度模型》一文将它作为一个成熟度阶段,可以作为参考;之后我们来慢慢聊一聊。