本篇文章1733字,读完约4分钟

大数据走低,不可靠的指数也在上升。 马继华在这个问题上举了毒米和死麻雀的例子,就是提醒那些埋头于大数据解体的人,不要忽视那些没有得到或者没有准备却得到的部分

【it时代杂志编辑】大数据衰退,不可靠的指数也在上升。 马继华在这个问题上举了毒米和死雀的例子,是为了提醒那些埋头拆大数据的人,不要忽略没有获取能力或者没有准备却获取了的部分,不要过于关注关联性,不要跳过因果论的步骤 往往,成见会导致整个数据观察的浪费性。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

首先,据说麻雀吃了有毒的大米中毒死亡。

之后,专家说:“专家认为麻雀可能是吃多了而死的。”

之后,有人散布谣言。 “没有人说麻雀死了。

之后,有人造谣说大米没有毒。

再后来,有人造谣说,大米还没有卖出去,卖出去的东西全部收回来了。

而且之后,虽然一部分大米没有被回收,但也有人散布谣言说大米确实没有检测出有毒性。

我们已经稍后来了。 因为这个故事还没有结束。 而且,即使人为地明确终结,好事者也不认为事件就这样结束了。

这次毒米和死雀的事,看起来流言四起,其实是典型的大数据观察实践,可见盲目的所谓大数据观察是多么容易误导公众。

1 .麻雀都找到了吗?

我不知道是谁在现场清点了数量,但当时吞噬大米的肯定有20只。 如果有很多,哪些麻雀去了哪里,为什么这些麻雀没有死?

据说我们进行了大数据观察,常常得到了所有的数据,但实际上只有可以得到的部分,就是我们没有能力或者没有准备得到的部分,但是对于我们最终的解体结论来说是很大的 当时,在美国总统选举中,那本著名的《文学文摘》获得了240万网民的投票意向,但最终预测失败,相反盖洛普以5000个小样本预测成功,也是这个原因。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

2 .这20只麻雀是吃了大米的麻雀吗?

麻雀是否吃了米,应该比较容易验证,但是否正好吃了这堆米,有点困难。 当然,如果时间短的话,即使验证也应该可以确认。 总之,确认米和麻雀的关联性。

大数据观察首先要确认事物的关联性,而且要密切相关,一对一直接相关。 如果只是把不相关或者可能相关的东西放在一起分解的话,最终的结论可能会很无聊。 例如,有人在中央电视台《信息联播》结束时连续观看太阳落山,由此得出结论,太阳落山与信息联播结束有关。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

3 .麻雀的死是因为吃了米吗?

麻雀死了是事实; 麻雀死之前吃了大米也是事实。 可以说麻雀的死与米有关吗? 也不能得出结论。 需要在麻雀的死亡和吃米之间建立准确的因果关系。 也就是说,我们需要找出麻雀死亡的死因。 而且,这个死因是米的毒药。

大数据观察关注关联性,甚至无视因果关系,但这种关联性往往需要因果关系的支撑。 如果是关联密切的直接关联,一定会发现某种因果关系,或者排除某种因果关系。 我们要做大数据观察,不要单纯的关联下结论,而要通过严密的因果论,认真被采用。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

4 .麻雀的死是因为吃了毒米吗?

严格来说,麻雀确实有可能因为吃太多米而死。 我们不能完全排除这种可能性。 所以,专家的话实际上是有道理的。 即使认定麻雀的死是毒米造成的,那毒药是怎么来的,是在大米生产中,还是有人下毒? 当然,这是公安部门的责任。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

我们只有发现大米有毒,而且大米有毒足以杀死麻雀,麻雀也确实吃了这些米,才能得出结论,但实际上舆论抛弃了这些逻辑,从中国的食品安全惯性开始思考

大数据观察可能会发现很多关联,但这些宝贵的发现可能很多都没用。 另外,有些东西是没有意义的。 我们有必要深入分析那个。 特别是,需要建立一套可证实的逻辑。 通过那个,可以找到对我们来说重要的线索。 但是,我们不想使用mece方法。 我不想考虑所有的可能性。 容易被认为有成见。 这个期间容易成为误判的首要原因。

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

【it时代杂志编辑后】最近有一个很有趣的论调。 数据推测,东道主巴西在世界杯上的胜算很大。 计算出这个结果的是大数据观察模型,在综合历史表现和最近伤病等因素的基础上,冠军概率排在前三位的是巴西、阿根廷、德国。 看到这个结果,很多粉丝相信眼镜会掉下来。 因为,从目前进入四分之一决赛的8支球队来看,巴西怎么看都不是有冠军气质的球队,阿根廷太依赖梅西了,似乎走不了更远的路。 数据计算更可靠还是运气更重要?

“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

作者马继华关注移动互联、醉数据观察。 微信公众平台:北国骑士

标题:“毒大米和死麻雀的大数据逻辑:关注关联性却忽”

地址:http://www.laszt.com/lhxinwen/3396.html