专栏名称: 人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
目录
相关文章推荐
大数据文摘  ·  美国开始禁用DeepSeek,下载还要判刑? ... ·  昨天  
大数据文摘  ·  谢谢Deepseek,o3-mini发布即免 ... ·  3 天前  
大数据分析和人工智能  ·  DeepSeek找到了未来最赚钱的6个行业 ·  2 天前  
数据派THU  ·  NeurIPS ... ·  3 天前  
51好读  ›  专栏  ›  人工智能与大数据技术

模型花费几十万美元,五年之间指导无数项目,才发现负样本用的是null?

人工智能与大数据技术  · 公众号  · 大数据  · 2020-12-30 09:36

正文

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载
机器之心编辑部

人们口口声声担心「人工智能的推断不可靠」,实则连个数据泄露的问题都敢忽略。


人们常会提到,当今流行的深度学习模型是黑箱状态——给它一个输入,模型就会决策出一个结果,其中的过程不为人所知。人们无法确切知道深度学习的决策依据以及结果是否可靠。近年来,越来越多的新研究面向构建可信的机器学习方法获得了成果。

然而最近发生的一件事情告诉我们,很多时候被广泛应用的机器学习模型出问题的原因,压根就不会深入到算法层面。一点数据上的纰漏就会造成让人啼笑皆非的结果,而且最重要的是,这样的事比所谓「模型不可解释」造成的损失还要多出不少。

上个星期,美国宾夕法尼亚州历史保护官员和交通部门之间发送了大量邮件,其中内容混合了悲伤、困惑和沮丧的情绪。这一丑闻造成的影响仍在继续,在官方做出回应之前,我们还不能了解更多情况(尽管此事在当地考古学家之间已经人尽皆知了)。

一个价值 36.5 万美元的机器学习模型打了水漂。

发生甚么事了?

五年前,一些人带着创意拜访了宾州交通部,提出为史前考古遗址创建一个全州范围预测模型。最终,政府部门选择与一家大型工程公司合作,后者一直在考古调查方面花钱。


从合同中我们可以看到,这家公司花费了纳税人 36.59 万美元,承诺提供一款最强大的模型,该模型还整合了 GIS(地理信息系统)叠加分析,其结果可供考古学家们使用。


从那以后直到今天,绝大多数宾夕法尼亚州交通部门的项目和所有需要进行文化资源调查的项目,在进行前都使用了这个机器学习模型的推断结果。


从数据准备、模型选择再到性能测试,这一项目原本看起来有模有样,然而错误一旦被人揭穿,情况就变得不忍直视了。

他们将待预测区域当做负样本

从 2013 年中到 2015 年,项目承包商花了一年半左右的时间向宾州交通部门交付了一个模型和 7 册文档。

不幸的是,到目前为止,似乎没有人阅读过该文档。模型似乎会输出一些毫无意义的数字,而背后原因非常神奇。


咨询公司将未调研的土地用作负样本数据集,但是,这些土地不就是模型将要预测的那部分吗?一个花费了 30 多万美元的模型,却真实地包含了这样的错误。


无论如何,在一个(混合了回归和随机森林的)模型中使用 null 数据都是不合适的,这些本不应该作为负样本数据而出现。即使这些 null 数据存在于自变量中,而不是因变量,它们依旧能够对模型的推理结果造成严重破坏。

他们检查项目时没有使用数据处理的最佳实践

可为什么开发团队的数据科学家们辛苦工作了一年半,也没有意识到他们在第一步中就犯了错?这与他们检查项目的方式有关。

一般来说,检查的金标准是留出一部分随机选择的部分。此时,只要你训练了模型,就可以知道该模型在给到真实数据时是否 work。


显然,在这件事中,相关研究人员未曾进行这样的验证。也许他们使用了一些神秘的统计方法?这就不得而知了。

他们将已知地点视为随机采样的结果

众所周知,即使在一个项目区域内,也并非所有土地的采样率都相同。仅使用铲测试坑(Shovel Test Pit),并假设你有 100 英亩的土地,其中 50 英亩是高概率,50 英亩是低概率,并以不同的间隔(常见的有 15 米、30 米)对其进行测试。这意味着你有 80% 的测试是在高概率土地上进行的,因为你可以在一英亩土地上以 15 米的间隔进行 16 次铲土测试,以 30 米的间隔进行约 4 次测试。因此你需要在高概率部分上找到 80% 的站点。

因此我们有一些已知的站点,这些站点并不是从随机采样的土地中发现的,而是从人们认为能够找到它们的位置发现的。

直觉上,大多数考古学家都知道这一点。这很重要,因为已知的正样本数据集的自变量分布已用于这些统计测试。这种分布是有偏置的,数据科学家不知道如何解释这些偏置。

因此,我们需要留出一部分数据。

项目管理,没有管理?

花费 36.5 万美元,并不意味着简单地让承包商派一个人过来,在办公室角落里捣鼓几年,而无需他人管理。

追溯到 2014 年初,这个项目在交付给宾州交通部门的第三卷文档中,已经犯了致命的错误(使用 null 数据作为负样本数据)。难道这个项目无人监督吗?为什么在向宾州交通部门收取数十万美元之前,这个融合了 GIS 和机器学习的模型不值得其他人(无论是同事还是上级)关注?

交通部门尽到职责了吗?





请到「今天看啥」查看全文