七大数据陷阱之认知错误(1):数据与现实的差距
发布日期:2023-03-04 00:23
本文继续基于Ben Jones 的新书Avoiding Data Pitfalls,来详细谈下七大数据陷阱。Ben Jones 在他的这本书第二章着重讨论了七大数据陷阱中第一个---认知错误。像以前一样,作者在本章的开始,引用了一句名言,这次是美国小说家Gertrude Stein的 “Everybody gets so much information all day long that they lose their common sense.” ,以此来叹息现在的人们已经为数据海洋所淹没,也表示着数据细节和关键特征已经很不容易被察觉到了。认识论是西方哲学的重要部门,具有学科前提的职位,同时也是人类文明的基石之一,其希腊词源有两部门组成,即 episteme (知识) and logos (言辞),字面意为讨论知识,实质上是探讨知识的泉源并评价其可靠性。
数据,作为知识和信息的符号,自然也是相关事情的基石。在某些领域,从业者可以不用相识相关专业基础和原则, 就可以在一定水平上顺利应用。好比,司机,不必相识机车的工程原理或电机的运行机制,就可以正常的开车。然而,数据事情不在此列,其更像是烹饪:只有充实相识火候和味道之间的 变化关系,才气做出鲜味的食物,否则,就只能靠运气了。
本文先从第一角度,即陷阱1A:数据-现实 差距,开始谈起,相信读者一定会感受到许多似曾相识之处。陷阱1A:数据-现实 差距从认识论角度,数据所代表的是现实中的事物,可以看作是符号,具有信息载体的作用。由此立刻可以追问,数据能否完全或完美反映其所代表的情形?这就是所要讨论的数据与现实的差距。
这固然是一个基础问题,但并不简朴,不夸张的说,许多资深从业者都深感这是个很贫苦的问题,而不敢掉以轻心。当拿到一些数据,经由开端分析之后, 应该注意如下问题:数据从那里来? 谁收集的?这个数据能告诉我们什么?更重要的是,这个数据不能告诉我们什么?在与数据相关的事情中,由于种种原因,很容易把数据与现实划成等号,因此有须要做一下刻意的区分, 好比在日常生活中应该注意:在考试结果单中,不是学生的相应学科的能力,而是学生考卷的分数在观察陈诉中,不是人们对该话题的看法,而是到场观察的人们对该话题的反映记载在媒体报道中,某些人还不是罪犯,只是该报道所认定的嫌疑人可见人们真的需要在事情语言中只管细致的描画每一部门的信息,才气制止掉进认知错误的坑里。Ben Jones 举了四个例子,贯串全章。我们来一一看下。
例1:所有未入眼帘的陨石陨石学会(The Meteoritical Society)提供过34,513颗撞击地球外貌的陨石的数据,时间跨度在公元前2500年至2012年1月,通过对这一数据集的实验和感受,可以令人显着体会到,预设不正确会直接导致错误的数据解读。有人基于该数据集,做了一张图,如下所示。
现在我们在舆图上看这些数据,你注意到了什么?陨石似乎更容易撞击到陆地,而不是海洋,这岂非不奇怪吗? 那么像南美的亚马逊河、北欧的格陵兰或中非的部门地域,怎么没有呢?这些区域有什么护盾吗, 或者有什么神来掩护这些区域不受伤害吗?于是有人又会脑洞大开了。谜底很简朴,看下该图的标题便可知之:“每一次有记载的陨石撞击。“为了让一块陨石打击的信息进入数据库,就要必须被记载,则必须有人来视察。
但不是所有人都能视察到,也不是那里都有人视察。显然,这在经济相对蓬勃和人口密度较高的地域更有可能发生。
那么,这张舆图并没有告诉我们陨石更可能撞击地球的位置,而是被记载的陨石落在那里,并由某人视察,谁陈诉了,谁记载了。听起来挺拗口的,不是吗?你可能会翻白眼,说这只是一堆技术细节问题。但试想一下,如果不如此思考,一定会有人假设是专家或喜好者视察并记载每一块陨石,而认定这个数据集包罗的是所有的客观数据,那可就大错特错了。这并不是说陨石学会提供的数据是错误的;只不外,自公元前2500年以来,实际撞击地球的陨石数量与被观察、报道和记载的陨石数量之间存在差距。
可以肯定地说,不行知的总数和数据库中的数字之间存在庞大的差异。究竟,约71%的地球外貌被水笼罩,而且部门土地自己也完全无人居住。然而,由于地理原因而无法被观察到的陨石数量,与那些由于缺乏历史记载的相比,要少得多。
下图显示了历年记载的陨石数量——每年都有自己的圆点——我们可以看到,直到20世纪才有陋习模的记载。已知最古老的陨石记载(可以追溯到公元前2500年的伊拉克)和第二古老的记载(可追溯到公元前600年的波兰)之间存在着庞大的时间差距。
1800年之前的任何一年都没有凌驾两颗的记载。到了20世纪,这一数字急剧增加,仅1979年和1988年就有凌驾3000条。可以肯定,在古代也有许多陨石撞击地面;或者人们没有注意它们; 或者纵然注意到了,但没有记载;或者记载了,但没有生存至今。例2:地震真的在增加吗?接着让我们思量一种地质现象:地震。
1994年1月17日,清晨4:31,美国洛杉矶圣费尔南多谷地域发生6.7级地震, 造成57人死亡,8700多人受伤,并造成多方面损失。美国地质观察局提供了一个地震档案搜索表单,让会见者可以获取满足种种尺度的历史地震列表。
对1900年至2013年6.0级及以上的地震举行查询,获得了一个似乎有点令人担忧的线图,如下图所示。真的是地震的频率增加了这么多吗?显然不是,因为已往十年的地震丈量和收集技术,已经远超20世纪初期水平。如果我们根据震级将线图分组显示,并添加形貌地震学希望的注释, 我们会发现上升只泛起在较小的组别中(震级为6.0-6.9),而且与仪器的庞大进步相应。
可以肯定地说,有记载的地震增多,主要是由于我们探测地震的能力提高了。在这段时间里,实际上,地震也可能有上升的趋势,但由于丈量系统的质量在不停变化,我们不行能确切地知道。
就地震而言,数据和现实之间的差距越来越小。只管这是一项值得歌颂的了不起的技术生长, 但依然不足以令人看到地震运动的历史趋势。此处的认知问题在于,“数据-现实差距”在我们所思量的这段时间里发生了庞大的变化。
很难确切地知道在某一些特殊年我们错过了几多次6.0级地震,因此无法作进一步推断。例3:过桥的自行车流量位于华盛顿州西雅图的弗里蒙特大桥(FremontBridge),具有明亮的蓝色和橙色的双叶,其建于1917年; 由于离水很近,平均天天开放35次,这可能使之成为美国开放次数最多的吊桥。西雅图是一个自行车之城,市交通局在行人/自行车道上安装了两个感应回路, 盘算天天从桥的任意偏向穿过的自行车的数量, 还在http://data.seattle.gov网站上提供了2012年10月2日以来的每小时统计数据。
对该数据集做图如下。面临图中标识的峰值,追溯原因,纵然是Ben Jones也没有头绪。
于是他分享给朋侪们,以寻求一下启发。很快,种种妙想天开就飞来了: 是“骑车上班节”吗? 也许是天气异常的好,更多的人都选择骑车出行了吧。奇怪的是,这个峰值泛起在桥的一遍,而另一边却没有。
于是脑洞又来了:他们是怎么回家的? 是不是真的有一个钉子让他们的轮胎瘪了,所以他们不能骑车回家? 或者,可能会有一个有组织的自行车角逐或俱乐部运动,其中包罗一个环形门路,骑手在另一个地方过河, 而不是在返回的路上转过身再从弗里蒙特桥上回来。请注意,这些想法都是建设在这样一个假设上的,这两天实际上有更多的自行车穿过大桥。没有人想已往质疑。终于一个朋侪,发来了一条信息,说他查过了,这是设备故障造成的。
那年4月,计数器有一段时间泛起故障, 发生在桥东侧的计数器凭据相应的博客更新中公布的内容,在2014年4月23日、25日、28日和29日早上,自行车计数实际上有四个小时的岑岭。仔细视察图中的时间线,会看到在庞大峰值之前的蓝色线中较高的值。
可是其时,事情人员没有发现计数器出了什么问题,反而“确认”了它是正常事情的,并更换了一些硬件和电池。而面临这种数据问题正确做法应该是,首先去确认下计数系统或相关设备是否正常,逐步排查,而不是一头扎进种种想固然之中。
例4:累计数竟然会下降!2014年,埃博拉病毒在西非肆虐,震惊世界。在危机期间,世界卫生组织(WHO)在每周情况陈诉中提供相应的数据。让我们来看看由世界卫生组织和美国疾病控制中心(CDC)公布的从2014年3月到2014年年底的埃博拉死亡累计时间轴。注意累计死亡人数的下降——当直线向下倾斜的时候。
乍一看,这似乎有些奇怪。某一天死于这种疾病的总人数怎么会比前一天竣事时少呢? 其实,这种表达问题的方式讲明已经掉进了陷阱。让我们换一种方式提问:陈诉的因该疾病死亡的总人数是如何一天天淘汰的?这固然是有原因的:由于设备和事情人员不足,在一些偏远地域诊断疾病和确定死亡是很是难题的。对于提供数据的专业人士来说,任何一小我私家的死亡原因也并不总是很容易就能获得的。
通常,几天甚至几周后才会收到的检测效果,而这很可能会改变开始时记载死亡的原因。事实上,在一场快速流传的大盛行病的情况下,暂时的推测或者预计,必须要在一段时间之后被证明是或证伪。这就是为什么,如果你阅读世界卫生组织的情况陈诉,你会注意到他们将病例划分为“疑似”、“可能”和“确认”。
这里不是为了品评那些到场抗击和记载埃博拉疫情的人或组织。他们也不应该被品评, 而且很应该赞扬他们在抗击疾病和照顾那些受苦受难和弥留的人方面所作的英勇努力,因为他们清楚的向人们转达了其数据陈诉中固有的不确定性。
联合时下的Covid-19的数据,也希望人们能有更清醒的认识。事实证明,在杂乱的情况下对疾病和死亡举行分类确实是一件棘手的事情。这个例子仅仅讲明,纵然在风险很高、全世界都在关注的情况下,数据和现实之间的差距仍然存在。这是因为这个差距总是存在的。
可见,这不是是否有差距的问题,而是差距有多大的问题。另外,另有个小例子,是关于汉克·艾伦(Hank Aaron)的《本垒打记载陈诉》? 他在全美职业棒球大同盟中打出了755个本垒打,创下了33年的纪录。可是当季后赛的时候, 他击出的六支本垒打呢?另有他在1971年和1972年月表国家同盟到场全明星赛时击出的两支全垒打? 让我们来谈谈他在加入亚特兰大勇士队之前,在美国黑人同盟印第安纳波利斯小丑队的职业角逐中, 在26场正式角逐中击出的5支本垒打。这些不应该也算在内吗?但所谓的官方统计只包罗美国职业棒球大同盟在通例赛中击出的本垒打,而这些数字并不包罗在内。
但有一定人会说,他在职业棒球角逐中分外击出的13支本垒打应该使他的官方职业生涯记载到达768支。此处涉及差别的统计方式,是数据与现实差距问题的又一种原因。想获取更多内容,请关注海数据实验室民众号。
本文关键词:七大,数据,陷阱,之,认知,错误,与,现实,的,ayx爱游戏体育网页登录入口
本文来源:ayx爱游戏app体育官方下载-www.hf-hanjie.com
Copyright © 2009-2022 www.hf-hanjie.com. ayx爱游戏app体育官方下载科技 版权所有 网站备案号:ICP备81039570号-9