专栏名称: 科研猫
小平台,大功能。本公众号旨在传播生物医学科研技能和生物信息学基础知识及应用技巧,助您在大数据时代精准挖掘科研数据,让您轻轻松松学知识,顺顺利利发文章。
目录
相关文章推荐
墨香中华  ·  一首《多年以前》,祝您周六愉快! ·  昨天  
墨香中华  ·  妻子每月收入7000给弟弟寄6000,离婚时 ... ·  昨天  
墨香中华  ·  唯愿化作一片雪,不负今生不负冬 ·  2 天前  
墨香中华  ·  毛主席影像,难得一见 ·  3 天前  
普象工业设计小站  ·  电动指甲刀科技控的福音 ·  4 天前  
51好读  ›  专栏  ›  科研猫

Excel又偷改我的数据了!你不是唯一受害人。

科研猫  · 公众号  ·  · 2020-10-28 07:07

正文

自1993年以来,EXCEL就凭借直观的界面、出色的计算功能、简易的操作和图表工具,成为最流行的个人数据处理软件和电子制表软件的霸主。与传统的统计程序不同,它提供了一个直观的界面,可以让你在操作数据时,实时看到数据发生了什么改变。

 

在商业和学术领域,Excel的应用可谓是无处不在,尤其是在有大量积累数据的领域,比如市场营销、金融、流行病调查、宏基因组测序数据等。

 

尽管Excel的后台程序开发十分复杂和稳健,但人们用Excel创建的电子表格却极其脆弱。


无论是对于初学者还是熟练者,Excel最大的问题就是无法跟踪数据的来源,对数据的改动无法留下轨迹,更多的时候你在毫不知情的情况下,会键入错误的数字或者删掉一些重要的数据,此外还有手动复制、粘贴错误以及公式错误。

 

今年咱们还在国庆「八天乐」期间,英国公共卫生部却因为新冠人数数据超过Excel上限,而遗漏了16000个新冠肺炎病例。英国广播公司(BBC)、《卫报》等英媒10月5日报道,当天英国公共卫生部承认,由于“技术故障”,他们遗漏了9月25日至10月2日的15841个新冠病毒确诊病例,这意味着英国政府同时也遗漏了至少47000名密切接触者。

 

 

英国的新冠检测在商业公司雇用的实验室中进行,检测结果以 csv 格式传报给卫生部,卫生部将数据输入 Excel 表格,然后共享到多个政府部门系统。这中间有一个环节出了问题,他们的EXCEL用的一种相对「古老」的格式:xls

 

实验室提交的 csv 文件,是文本形式表格,数字之间用逗号分割,理论上可以有无限行。而在 xls 文件中,一个模板最多有 65,536 行。在进行文件格式转换的时候,超出行数的部分会被系统直接删除。每个病例的检测结果都有好几栏,一个模板大约只能容纳 1400 个病例的数据。

 

事件曝光后,许多人批评英国卫生部居然使用了如此过时的xls版本。该版本诞生于 1987 年,早在2007 年发布的xlsx 文件格式就已经能够容纳 1,048,576 行,是xls 格式的 16 倍。

 

谢菲尔德大学搜索和分析教授 Paul Clough发文评论此事。他指出,虽然 Excel 很受欢迎,经常被用于数据分析,但它并不适合处理数据量太大的情况,或比较复杂的分析任务。即使使用了最新版本的excel,超过容纳上限也只是时间问题。 

 

这其实并不是Excel第一次闯祸。


或许,我们大家都遇到过这种情况,当我们在Excel中输入数据时,会被自动更改格式,特别是一些重要数,如临床试验等,就可能产生不可挽回的严重后果。尽管可以通过手工设置单元格格式以还原数据,但有时遗漏是在所难免的。据一项 2016 年的调查表明,这类 “Bug” 非常普遍,以至于在 3597 篇样本论文中,约五分之一都受到了影响。


图 |  Excel 将基因名称误读作日期


目前没有简单的办法能够对抗这种“Bug”,Excel没有关闭自动修改格式的按钮,为了避免自动转换,只能重设整列单元格数据类型。但是这种修复仅限于本次操作,一旦其他人引用了相关数据,问题有可能会再次出现。

 

国际人类基因组组织(HUGO)下辖的 HGNC(基因命名委员会),不得不更换人类基因命名,以避开 Excel 的“Bug”。例如:MARCH1 将变为 MARCHF1;SEPT1 变为 SEPTIN1。尽管生命科学和基因对于人类来说非常重要,但是这个领域的科研人员对于微软庞大的用户群来说,是很小的一部分。

 

“90% 的分水岭”的经济学原理想必大家都曾听说过,是由莱因哈特和罗格夫于2010年发表的,即当一个国家的公共债务与GDP比例超过90%,该国的经济增长速度会下降。美国右翼使该理论发扬光大,用以巩固自己财政紧缩的政治主张。他们宣称,如果政府继续保持高比例的公共债务,这相当于把全美国人民往经济衰退的火坑里推。

 

这是真的吗?这条影响力重大的经济学研究近来被证明竟然是错误的,而错误的源头竟是因为一次不恰当的 Excel 计算。最明显的错误是,当莱因哈特和罗格夫要计算第30行到49行20个国家数据的平均值时,他们把公式 AVERAGE(L30:L49) 误输入为 AVERAGE(L30:L44),只计算了前15个。

 

当然,除去excel公式的意外错误,莱因哈特和罗格夫还人为舍去了部分特殊点,还有不合理的对部分数据进行过度加权,使得计算结果更倾向于“高负债率影响经济增长”的结论。在纠正以上错误后,负债率高于90%的国家平均经济增长速度为2.2%,而非原结论中-0.1%。

 

值得一提的还有大名鼎鼎的摩根大通交易员、“伦敦鲸”布鲁诺·埃克西尔(Bruno Iksil)。去年,因摩根大通的投资策略失误,给公司造成了20亿美元的巨额亏空。事后调查发现,埃克西尔使用的Excel计算公式有问题,导致他低估了自己的交易风险。

 

以上的案例中,有一些确实是excel自身设计的问题,但部分不免有背锅的嫌疑。一个好用但有缺陷的产品,用得多就会错得多,那么,这种“好用”也会变成了原罪。对于严谨的科研工作者来说,我们评价软件或者某种工具,可能更像我们使用绳子,总要从最薄弱的一段来断定绳子的质量。

 

术业有专攻。在科研数据分析中,我们还是推荐更为专业的工具,像SQL是高级的非过程化编程语言,允许用户在高层数据结构上工作;像R语言,对数据的处理有详细的日志记录,而且对数据量没有上限要求。

 

参考内容:

https://baselinescenario.com/2013/02/09/the-importance-of-excel/
https://baijiahao.baidu.com/s?id=1679783290871190975&wfr=spider&for=pc
https://mp.weixin.qq.com/s/cEDgCyHuO2RJE1eK_UwhXw
https://mp.weixin.qq.com/s/YkTM6c8xHQZRIHePYA51Tg
https://www.guokr.com/article/436983/

图片、参考资料来源于网络,侵权请联系删除



不会 R 语言也可以画出高端大气的

科研图


科研绘图神器—hiplot全网首个开源绘图平台,目前可提供150余种基础+高级可视化功能,并在不断的更新中


点击图片进入Hiplot平台介绍


免费注册hiplot账号,全面开放,免费使用

注册网址:https://hiplot.com.cn/signup



更多科研新鲜资讯、文献精读和生物信息技能

请关注科研猫公众号

点个“在看”分享给更多的小伙伴