专栏名称: Python新手营
数据,算法,人工智能
目录
相关文章推荐
51好读  ›  专栏  ›  Python新手营

成为大牛的路上,这4个数据谬误你必须警惕

Python新手营  · 公众号  · AI  · 2017-12-21 12:31

正文

| kdnuggets | 刘羽涵

本文会告诉你一连串的常见数据谬误所导致的错误结论和糟糕决策,提醒你分析数据的时候别再犯这些错误。

数据是我们提升技术的关键,但也常常误导我们。当我们分析数据时,经常会被数据戏弄。这些数据谬误通常是存在于数据中的谬见和陷阱。数据谬误最终会导致从数据中得出错误结论和糟糕决策。

为了避免落入陷阱,首先我们需要意识到陷阱的存在才能免于成为受害者。因此,我们总结了常见数据谬误指南。我们将其适用于工作环境中,以便提醒你分析数据的时候别再犯这些错误,本文中主要讲解我们认为最常见的4点数据谬误。

1. 数据挖掘


数据挖掘也叫数据试验、数据探测或者P值操纵(p-hacking)。针对一组数据提出新的假设,进行反复试验,但是未能发现大部分相关性其实是源于偶然事件的结果。只有提前定义假设,统计学数据实验才有意义。

例如,临床试验上有这样一个难题。研究人员进行了“数据挖掘”试验,反复验证一组试验结果。这导致他们发现了两个变量之间的虚假相关性,这种相关性很有可能只是偶然结果。这就是为什么很多发表在学术期刊上的研究结果后来被证明是错误的。为了避免这种情况,提前说明你的最终目标点是什么成为了临床试验登记时的标准惯例。


为了避免发生这类错误,达到数据统计学意义,在数据分析或试验前需要提前定义假设。

2. 错误的因果关系


因果关系也叫“cum hocergo propter hoc”,拉丁文意思是“有它在,所以因为它”。这种数据谬误源于错误的假设——当两个事件一起发生时,一件事一定引发了另一件事。然而相互关系并不意味着因果关系。


例如,过去150年,全球气温持续上升,海盗数量成比例下降。没有人会因此认为海盗数量的减少造成了全球气候变暖,或者是海盗增加会逆转气候变暖现象。

但是通常两个事件的边界并不清晰。两个事件的相关性诱使我们认为一个事件导致了另一事件的发生。然而,我们所看到的结果通常是由于巧合或者其他因素所导致的。在上文海盗与全球气候变暖的例子中,二者的原因都是工业化发展。还有许多关于错误因果关系的案例,TylerVigen在这方面做了很多工作。

绝对不能仅由相关性来推测因果关系,多收集证据,多想想其他可能导致所有事件发生的附加变量。

3. 过度拟合


越复杂的说明越能更好的描述你的数据。但是,越简单的说明通常越能说到本质。这其实就是过度拟合——模型与数据过度匹配,无法代表普遍趋势。


提到数据,你想要理解数据的本质关系是什么。为了达到这一目的,你构建了一个数学表达式模型。问题是复杂的数学模型比简单的模型更适用于你的原始数据。但是也更脆弱:对于你已有的数据,复杂模型很适用,但是却很难解释数据随机变化。因此,一旦你加入更多数据,模型就会出现问题。简单的模型通常更稳定,更适用于预测未来趋势。







请到「今天看啥」查看全文