加入收藏 | 设为首页 | 会员中心 | 我要投稿 南京站长网 (https://www.025zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据的本质,一场思维方式的革命

发布时间:2023-01-05 05:31:19 所属栏目:大数据 来源:未知
导读: 大数据时代,谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
大数据更是一种思维方式革命

在方法论的层面,大数据是一种全新的思维方式。按照大

大数据时代,谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。

大数据更是一种思维方式革命

在方法论的层面,大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。

要说清楚大数据思维的重要性,需要先回顾一下自 17 世纪以来一直指导我们曰常做事行为的先前最重要的一种思维方式一一机械思维。今天说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至「机械」本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张地汫,在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维,尽管他们嘴上谈论的是更时髦的概念。

那么,机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别呢?

不论经济学家还是之前的托勒密、牛顿等人,他们都遵循着机械思维。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。

后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:

第一,世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。

第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。

第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。

这些其实是机械思维中积极的部分。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者可预测性)和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。没有这些确定性和因果关系,我们就无法认识世界。

从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此,在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好。这也就导致一种新的方法论诞生。

不确定性在我们的世界里无处不在。我们经常可以看到这样一种怪现象,很多时候专家们对未来各种趋势的预测是错的,这在金融领域尤其常见。如果读者有心统计一些经济学家们对未来的看法,就会发现它们基本上是对错各一半。这并不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征,以至于我们按照传统的方法——机械论的方法难以做出准确的预测。

世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。

反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。

当然,用不确定性这种眼光看待世界大数据思考,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑出一种,因为全世界的人数是有限的,这也就把识别问题变成了消除不确定性的问题。

大数据的本质

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。

先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

关于大数据多维度的重要性问题,可以从两个角度来看待它。

第一个视角是「互信息」,为了获得相关性通常需要多个维度的信息。比如我们要统计「央行调整利息」和「股市波动」的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。

第二个视角是所谓的「交叉验证」,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,「空气湿度较高」和「24 小时内要下雨」之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证「24 小时内要下雨」这件事,那么预测的准确性就要大很多。

最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。(92大数据订阅号会持续为您分享)返回搜狐,查看更多

(编辑:南京站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章