说未来是数据时代。 数据显示了一切,数据不撒谎。 数据是罗塞塔石头,毛皮是所有的人体代码。 现实真的是这样吗? 纽约大学的数据科学教授安德烈·琼斯·rooyjuly不同意这一点。 因为数据不是客观的现实,所以也是由人来定义的,有各种各样的偏差。 因此,我们必须慎重识别和充分考虑。
数千年来,我们总是以逸闻、直觉、老太太的故事作为我们观点的证据,今天我们大多数人都要求用数据来支持自己的论点和想法。 治愈癌症,解决职场的不平等,即使赢得选举,数据现在也是罗塞塔石,人类现有的代码几乎可以解读。
但是在这种狂热中,我们已经把数据和真相混淆了。 这种认识对我们理解、解释和改善感兴趣的事物的能力产生危险的影响。
我这么说自己有风险。 我是纽约大学的数据科学教授和企业的社会科学顾问,我为他们进行了定量的研究,帮助他们理解和改善多样性。 我以数据为生,但我和学生和顾客说话时,必须注意实际上数据并不是现实的完美表现。 因为数据基本上是人类编造的故事,所以受到偏见和限制,以及与之相伴的不完美的束缚。
这种误会最明确的表达方式是从会议室到教室都能听到的问题,善意的人想要弄清楚麻烦问题的真相时:
“什么是数据? ’他说
数据什么也没说。 说话的是人。 他们是在数据中他们发现和寻找的东西,数据之所以一开始就存在,是因为人们选择收集它,利用人类制作的工具收集数据。
数据显示了没有问题的东西,没有发挥建造房子的锤子和马卡龙的杏仁粉那样的作用。 数据是发现的必要要素,但是有必要有人选择它形成洞察。
因此,数据的有用性与掌握其质量的人的技能只有相同程度。 如果你尝试过做麦卡龙,你知道我说的。 我试了试。 我们只能说那个数据没有达到法国点心店的标准。 中所述情节,对概念设计中的量体体积进行分析
所以,如果数据本身什么也做不了,或者什么也说不了的话,数据是什么呢?数据是什么
在某些时间和地点,数据是世界某些方面不完美的类似物。 (我知道这个定义没有我们想要的那么性感。 这是人们想知道什么,测定它,用特定的方法组合这些测定值时的结果。
以下是将不完整性纳入数据的四种主要方法。
随机偏差
系统偏差
测量选择偏差
消除偏差
但是,这些错误并不意味着我们必须抛弃所有的数据,而是意味着一切都不知道。 意思是深思数据收集,听到可能漏掉了什么,欢迎收集更多的数据。
这个想法不是反科学和反数据。 相反,这两个优点明确了我们自己的工作极限。 认识到可能的错误会使我们的推断更加有力。
首先是随机偏差。 随机错误是由于人们决定测量什么的时候,设备破坏,自己的错误而记录的数据错误。 其形式是将温度计挂在墙上测量温度,或者用听诊器计算心跳。 如果温度计坏了,我恐怕不能告诉你正确的度数。 听诊器可能不错,但数的人可能会错过心跳。
随机错误对我们的馀生有很大的影响(如果我们没有勤奋地记录温度和心跳),其形式之一是医疗筛查中的误报。 比如说,乳腺癌的误报是指虽然筛查的结果被认为是癌症,但是没有实际发生。 可能发生这种情况的原因很多,其中很多都可能归结为将与世界相关的事实(是否为癌症)转换为数据(乳房x线照片和人的数据)过程中的错误。
这种错误带来的结果也是非常真实的。 研究表明,错误的报告即使患者健康状况良好,也会导致多年的负面心理健康结果。 从好的方面来说,对误报的恐惧会更加注意筛选。 _ _ _ _ _ _ _ _ _ _ _,虽然误报的可能性会进一步增加,但这并不是问题。
一般来说,只要我们的设备没有损坏,只要我们尽最大努力,我们就希望这些错误在统计上是随机的,所以随着时间的推移逐渐被中和——如果你的医疗筛查是错误之一,这不是很大的安慰。
其次是系统的偏差。 系统错误是指一些数据可能会以牺牲其他数据的方式进入数据集,从而导致世界出现错误的结论。 这可能是许多不同的原因:你抽样了谁,什么时候抽样,或者参加了你的研究,或者填写你的调查的人是谁。
选择偏差是一般的系统误差。 例如,使用来自推特的推特中的数据来理解国民对特定问题的感情是因为我们很多人都没有推特。 而且,推特的人并不一定会向别人展示自己的真实心情。 相反,来自Twitter的数据集是一种了解加入该特定平台的一些人将如何与世界共享的方式。
2016年美国总统选举就是一个例子,一系列系统的误差有可能使舆论调查错误地偏向希拉里·克林顿。 人们实际上很容易得出所有的舆论调查都是错误的——也许是这样,但也许和我们平时想的不一样。
选民对扑克投票可能不太报告。 因为被认为是不受欢迎的选择。 我们称之为社会期待偏差。 停下来想一想,如果更加警惕这种偏差,我们可以把它移植到我们的模型中,更好地预测选举结果。
遗憾的是,医学研究系统的偏差随处可见。 医学研究的对象有很多人因病有找医生或参加临床试验的手段。 作为克服这一缺点的方法之一,可穿戴技术的发展有点令人兴奋。 例如,如果拥有Apple Watch的每个人都能够将心率和每天的步调发送给云,我们就会有更多的数据,偏差很小。 然而,这可能引入新的偏见。 目前的数据可能偏向西方世界富裕成员。
第三是测量内容的选择偏差。 这发生在我们认为同一件事情的时候,实际上是在测量另一件事情的时候。
很多公司都对客观的录用和晋升决策感兴趣,我曾和他们合作过。 因此,他们往往向技术寻求帮助。 我们如何向经理提供更多的数据来做出更好的决策? 我们如何应用正确的筛选条件,使招聘者能够找到最优秀的人才?
但是,几乎没有人询问自己测量的数据是否是他们想测量的。 比如说,如果我们要找一流求职者,上一流大学的人可能会更受欢迎。 但是,这不是衡量人才的手段,社交网络成员不仅仅是衡量人才的标准,也可能只是衡量是否有社交网络成员资格的标准。 这个资格为特定的人提供了“适合”的机会,可以进入优秀的大学。 一个人的GPA成绩可能是衡量一个人选择自己能力强的课程能力的好手段。 他们SAT的成绩,也许是他们父母委托私教方面财力的可爱表现。
企业和我的学生热衷于尖端的方法论,他们忽视了更深层次的问题。 为什么我们要用这个方法测量这个? 有更了解人的方法吗? 而且,根据我们拥有的数据,怎样调整过滤器才能减少这种偏差呢?
最后,消除偏差。 这发生在有系统地忽略了数据集合中的群体的情况下,为了进一步排除它创造了先例。
例如,现在女性比男性更容易死于心脏病,主要是心血管数据多以男性为基础,男性所经历的症状与女性不同,因此诊断变得不正确。
关于白人女性在美国竞选政治职位时的表现的数据现在很多,但是有色人种的却不多,对于选举中的白人女性,她们面临着不同的偏差。 在进行这些研究之前,我们尝试根据橙子的相关数据推测苹果,结果比不均衡的水果色拉差得多。
选择研究同样的东西,可以进一步研究这个题目。 它本身是零散的。 由于基于现有数据集的创建比创建自己的数据集更容易,研究人员通常围绕参与选举的白人妇女和男性心血管健康等主题展开研究,以牺牲其他人。 多次这样做,突然的男性成为默认的心脏病研究对象,白人女性成为默认的政治参与研究对象。
其他例子很常见。 衡量“领导能力”可以促进会议积极表达,长期以来可能会损害沟通。 给SAT加上“逆境”的得分,父母可能会转移到其他社区提高得分。
我看到这在多样性领域也有影响。 DiversityInc .等试验苹果公司多样性的组织,选择了几个鼓励公司的指标。 例如,“领导力认可”的测量标准是否有最高多样性官。 如果选中此框,可能会刺激不实用的行为,如任命没有实权的CDO等。 为什么还要相信数据呢
在反智主义、假新闻、以及替代事实和伪科学横行的时代,我不想说这些。 有时我们的科学家感到几乎不努力。 但是我相信数据和科学之所以有用,不是因为完美而完美,而是因为我们认识到了自己努力的极限。 为了用统计数据和算法好好分析事物,我们也有必要好好收集数据。 我们多么谦虚,对自己极限的认识有多深,我们自己多么坚强。
这并不意味着丢弃数据。 这意味着,如果我们的分析包含证据,则应该考虑影响其可靠性的偏差。 “你解释了什么? “是谁收集的数据呢? 他们是怎么做的?那些决定是如何影响结果的? ’他说
我们有必要质疑数据。 不是因为我们只是给某些东西分配了数字,而是假设它突然变成了冷淡的真相。 当我遇到研究或数据集时,我想问问这张图缺少什么。还有其他方法可以考虑发生了什么吗? 这个特定的测定手段包含了什么,除了什么,在激励着什么呢?
因为我们开始关注统计数据、算法和隐私,所以必须充分考虑数据。 只要数据被认为是冷淡、准确、绝对可靠的事实,我们就有可能对周围的世界产生并加强许多不准确的理解风险。
译者: boxi。