首先我告诉你,本文就是标题党,根本就是用来忽悠你的。尤其是,如果你不爱浪漫、不相信爱情,你进来就是上当了,赶紧走吧。

我很早的时候就和团队聊过,如果能够对人建模,就能做很多好玩的事。比如说,你用“摇一摇”“约炮”的时候,你只能摇到附近的人,而假如用上我的模型,你就能摇到你喜欢的人。

来看一个简单的例子。在线约会网站OkCupid曾经对会员资料作过一番研究,探索什么样的资料最容易约会成功。例如,他们研究了会员照片,试图回答什么样的照片能够激起浏览者的好奇心。他们将照片分为调情脸、微笑脸和严肃脸三类,并发现:调情脸的女性更受欢迎。调情脸是什么呢?它是指“直接对着镜头调情”,跟微笑或只是看上去高兴的脸很不一样。跟镜头调情,就等于跟浏览者调情,所以电脑前“发贱”的男生容易上钩。

而男性的照片则相反。不看镜头且比较严肃的照片,最有可能成功约会女性;而长着调情脸的男性则不受女性的欢迎。尤其有趣的是,不露脸的家伙,比如穿戴潜水装备的人、穿越沙漠的人或用相机挡住脸的人,不仅不影响女性的观感,反而更有可能约会成功。统计而言,露脸的男性10次可成功约会5.91次,而不露脸的10次可成功5.92次。

再看看别的数据,比如身高。几乎所有男性都会给自己身高加上5厘米,而越接近一米八,他们就越喜欢直接填上180厘米。女性虽然没有向某个标准身高集中的趋势,但往往也会夸大自己的身高。收入方面,通常人们会夸大20%以上,而且年纪越大,夸大的比例越高,四十多、五十多岁的人往往会夸大30%甚至更多。

可见,即使是约会网站,对人进行建模也是困难的。因为就像人们通常所遇到的那样,基础数据质量是不可靠的。因此需要对数据进行“清洗”,以努力排除人们所说的和实际所想的并不一致的现象。比如,如果女生说喜欢30岁以上的男性,但实际上她也浏览28岁以下的男生,那算法里就要考虑她的实际特征。因此,约会网站的推荐算法,比亚马逊的图书推荐算法之类更复杂,因为必须进行双方的喜好匹配,要知道,“就算你喜欢‘教父’,‘教父’却不一定喜欢你”。

严格来说,一方面由于基础数据的缺失,一方面由于对人和喜好很难建模,计算机配对算法所进行的推荐和预测是无效的。正如国外研究所揭示的,世纪佳缘、百合等在线约会网站,并不比线下的征婚机构(包括非诚勿扰这样的征婚节目)更好,其道理就在这里。其实,对婚恋行为有研究的心理学家,比计算机更能预测爱情。

这正是大数据无能为力的地方。大数据要求完整数据样本,才能保证算法公式和推荐潜在伴侣的有效性。没有足够的数据,算法本身就无从验证,创建精准的算法就无从谈起。大数据哭了:它不能带给你浪漫爱情。

但是且慢!约会网站的会员数据,就像企业里面的传统报表数据一样,往往是针对目的进行修正的,也就是撒谎的不真实数据。但正如我常说的,你可以撒谎一次两次,你不可能永远撒谎,因为一次谎话需要更多的谎话才能圆回去,而系统如果记录你的行为和特征,你就可能永远圆不回去了。与约会网站相比,Facebook这样的社交网站,更适合作为真实人际关系的在线模拟,也就是说,Facebook上的你,是更真实的你!

因此,我不要看你约会照片,我也不在乎你的身高和收入,我通过研究你查看他人动态、与他人聊天沟通、阅读社会新闻、收听在线广播等在线行为,我可以更了解精神层面的你,因而更能洞察你是否是那个更适合我的Mr. Right。

当然,Facebook只是一个示例。实际上,你在Twitter、Google、微博、微信等等服务上都会留下无处不在的足迹。只要你上网,你的行为就无法遁形,就可以用来分析,而我就可以用来认识你、了解你。

因此在未来,大数据能够为我们提供视角,了解我们在周边环境的的状态。比如,根据过往你与女友的分手次数和状态,在当前这样的年初时刻,预测你们今年的关系是否难熬。

本文部分内容参考《大数据云图》一书。

bigdata_demystified