在商业和学术领域,Excel的应用可谓是无处不在,尤其是在有大量积累数据的领域,比如市场营销、金融、流行病调查、宏基因组测序数据等。
尽管Excel的后台程序开发十分复杂和稳健,但人们用Excel创建的电子表格却极其脆弱。
无论是对于初学者还是熟练者,Excel最大的问题就是无法跟踪数据的来源,对数据的改动无法留下轨迹,更多的时候你在毫不知情的情况下,会键入错误的数字或者删掉一些重要的数据,此外还有手动复制、粘贴错误以及公式错误。
今年咱们还在国庆「八天乐」期间,英国公共卫生部却因为新冠人数数据超过Excel上限,而遗漏了16000个新冠肺炎病例。英国广播公司(BBC)、《卫报》等英媒10月5日报道,当天英国公共卫生部承认,由于“技术故障”,他们遗漏了9月25日至10月2日的15841个新冠病毒确诊病例,这意味着英国政府同时也遗漏了至少47000名密切接触者。
英国的新冠检测在商业公司雇用的实验室中进行,检测结果以 csv 格式传报给卫生部,卫生部将数据输入 Excel 表格,然后共享到多个政府部门系统。这中间有一个环节出了问题,他们的EXCEL用的一种相对「古老」的格式:xls。
实验室提交的 csv 文件,是文本形式表格,数字之间用逗号分割,理论上可以有无限行。而在 xls 文件中,一个模板最多有 65,536 行。在进行文件格式转换的时候,超出行数的部分会被系统直接删除。每个病例的检测结果都有好几栏,一个模板大约只能容纳 1400 个病例的数据。
事件曝光后,许多人批评英国卫生部居然使用了如此过时的xls版本。该版本诞生于 1987 年,早在2007 年发布的xlsx 文件格式就已经能够容纳 1,048,576 行,是xls 格式的 16 倍。
谢菲尔德大学搜索和分析教授 Paul Clough发文评论此事。他指出,虽然 Excel 很受欢迎,经常被用于数据分析,但它并不适合处理数据量太大的情况,或比较复杂的分析任务。即使使用了最新版本的excel,超过容纳上限也只是时间问题。
这其实并不是Excel第一次闯祸。
或许,我们大家都遇到过这种情况,当我们在Excel中输入数据时,会被自动更改格式,特别是一些重要数,如临床试验等,就可能产生不可挽回的严重后果。尽管可以通过手工设置单元格格式以还原数据,但有时遗漏是在所难免的。据一项 2016 年的调查表明,这类 “Bug” 非常普遍,以至于在 3597 篇样本论文中,约五分之一都受到了影响。
图 | Excel 将基因名称误读作日期
目前没有简单的办法能够对抗这种“Bug”,Excel没有关闭自动修改格式的按钮,为了避免自动转换,只能重设整列单元格数据类型。但是这种修复仅限于本次操作,一旦其他人引用了相关数据,问题有可能会再次出现。
国际人类基因组组织(HUGO)下辖的 HGNC(基因命名委员会),不得不更换人类基因命名,以避开 Excel 的“Bug”。例如:MARCH1 将变为 MARCHF1;SEPT1 变为 SEPTIN1。尽管生命科学和基因对于人类来说非常重要,但是这个领域的科研人员对于微软庞大的用户群来说,是很小的一部分。
“90% 的分水岭”的经济学原理想必大家都曾听说过,是由莱因哈特和罗格夫于2010年发表的,即当一个国家的公共债务与GDP比例超过90%,该国的经济增长速度会下降。美国右翼使该理论发扬光大,用以巩固自己财政紧缩的政治主张。他们宣称,如果政府继续保持高比例的公共债务,这相当于把全美国人民往经济衰退的火坑里推。
这是真的吗?这条影响力重大的经济学研究近来被证明竟然是错误的,而错误的源头竟是因为一次不恰当的 Excel 计算。最明显的错误是,当莱因哈特和罗格夫要计算第30行到49行20个国家数据的平均值时,他们把公式 AVERAGE(L30:L49) 误输入为 AVERAGE(L30:L44),只计算了前15个。
当然,除去excel公式的意外错误,莱因哈特和罗格夫还人为舍去了部分特殊点,还有不合理的对部分数据进行过度加权,使得计算结果更倾向于“高负债率影响经济增长”的结论。在纠正以上错误后,负债率高于90%的国家平均经济增长速度为2.2%,而非原结论中-0.1%。
值得一提的还有大名鼎鼎的摩根大通交易员、“伦敦鲸”布鲁诺·埃克西尔(Bruno Iksil)。去年,因摩根大通的投资策略失误,给公司造成了20亿美元的巨额亏空。事后调查发现,埃克西尔使用的Excel计算公式有问题,导致他低估了自己的交易风险。
以上的案例中,有一些确实是excel自身设计的问题,但部分不免有背锅的嫌疑。一个好用但有缺陷的产品,用得多就会错得多,那么,这种“好用”也会变成了原罪。对于严谨的科研工作者来说,我们评价软件或者某种工具,可能更像我们使用绳子,总要从最薄弱的一段来断定绳子的质量。
术业有专攻。在科研数据分析中,我们还是推荐更为专业的工具,像SQL是高级的非过程化编程语言,允许用户在高层数据结构上工作;像R语言,对数据的处理有详细的日志记录,而且对数据量没有上限要求。
参考内容:
https://baselinescenario.com/2013/02/09/the-importance-of-excel/https://baijiahao.baidu.com/s?id=1679783290871190975&wfr=spider&for=pchttps://mp.weixin.qq.com/s/cEDgCyHuO2RJE1eK_UwhXwhttps://mp.weixin.qq.com/s/YkTM6c8xHQZRIHePYA51Tghttps://www.guokr.com/article/436983/ 图片、参考资料来源于网络,侵权请联系删除
不会 R 语言也可以画出高端大气的
科研图
科研绘图神器—hiplot,全网首个开源绘图平台,目前可提供150余种基础+高级可视化功能,并在不断的更新中。
点击图片进入Hiplot平台介绍
免费注册hiplot账号,全面开放,免费使用:
注册网址:https://hiplot.com.cn/signup
更多科研新鲜资讯、文献精读和生物信息技能
请关注科研猫公众号