专栏名称: YND科研绘图
用自己的实践积累打造纯原创3Dmax教程,提供max及渲染器各种版本的下载,从初级教程到高级教程应有尽有,更有细心及专业的问题解答,帮你完成从小白到大神的蜕变!
目录
相关文章推荐
51好读  ›  专栏  ›  YND科研绘图

【科研那些事儿-02期】用Excel搞研究靠谱吗?

YND科研绘图  · 公众号  ·  · 2021-04-15 17:45

正文

导读:

2020整整一年,全球一直处于对抗新冠疫情的局势当中,每天数以百万例的确诊病例在为世界各国带来人力、物力和财力挑战的同时还使我们面临着对于大数据的处理与计算的压力。

上个月,英国卫生部门在统计患者数据的时候犯下了一个大“失误”: 他们竟然漏统计了近16000个新冠病例。

来  源 | 综合自果壳、科研猫、中国青年网、科研网、DeepTech深科技、The Baseline Scenario






英国卫生部门数据统计重大“失误”



上个月,英国卫生部门在统计患者数据的时候犯下了一个大“失误”:他们竟然漏统计了 近16000个新冠病例 。报道称,此事有可能是卫生部门使用Excel表格处理数据时, Excel行数爆表了。

(BBC报道截图)

(卫报报道截图)

英国的新冠检测在商业公司雇用的实验室中进行,各实验室会以日为单位将检测结果以 csv格式 发送给卫生部门,表格的内容是以逗号分隔的 不限行的 检测结果值列表。卫生部将数据输入Excel表格,然后共享到多个政府部门系统。我们知道尽管xls文件大小并无限制,但却有行 1048576的最大行数限制,超过这一行数的数据将不再显示。

也就是说英国公共卫生部,由于“技术故障”,遗漏了9月25日至10月2日的 15841个 新冠病毒确诊病例,这也意味着英国政府同时也遗漏了至少 47000名 密切接触者。公共卫生专家担心,统计失误会影响接触者追踪,对疫情防控造成不利。

现在这个统计错误已经被手动修复。并且英国卫生部新的统计系统也已经在开发中,为了防止该情况再次发生,卫生部门会把统计表拆分成更多的Excel表格,以扩大Excel表格数据统计的上限。很多人笑称,这是一个治标不治本的办法。

许多数据统计专家和学者对英国卫生部这个失误非常恼火,恼火的原因主要由于以下两个原因:

1、卫生部居然还使用过时的 xls版本 ,这个开发于上个世纪80年代的老版本仅能容纳65536行的数据,每个病例的检测结果都有好几栏, 一个模板大约只能容纳1400个病例的数据 。而在2007年发布的 xlsx文件 格式早已经能够容纳1,048,576行数据了, 是xls格式的16倍。

第二个原因,很多人实在想不通处理和分析这种大数据量的数据,为什么还要用Excel?

谢菲尔德大学搜索和分析教授 Paul Clough发文评论此事。他指出,虽然 Excel 很受欢迎,经常被用于数据分析,但 它并不适合处理数据量太大的情况 ,或比较复杂的分析任务。即使使用了最新版本的Excel,超过容纳上限也只是时间问题。

剑桥大学计算机实验室通信系统教授 Jon Crowcroft 则更加直白地指出,连一个修过计算机课的高中生都知道,有更好的替代选择。“Excel的使用对象是面对小数据的工作人员,……如果你要完成一个更加严肃的任务, 就该去找一个专用工具 ,有十几个这样的专用工具,没人用xls。


其实这不是Excel第一次出现分析“失误”了,已有证据显示,Excel在某些领域的统计分析是有缺陷的。




Excel的黑历史




金融领域:2012年摩根大通对外宣布,其投资策略失误给公司造成了 20亿美元 的巨额亏空。在事后的调查中人们发现,埃克西尔使用的Excel计算公式有问题,导致他低估了自己的交易风险。这次事件,JP摩根实际损失可能会超过75亿美元,JP摩根的市值因此缩水397亿美元。

在分子生物学领域,最近一年左右的时间,有约 27种人类基因被重新命名 ,起因就是 Excel软件的误读 。人类基因组,有23对染色体大约20000-25000个基因。在科学研究中,我们需要为每个基因起一个特定的名称以便快速定位,这些名称一般由字母加数字的形式组成。

但是Excel会将这些基因名称误读为日期格式,并直接修改成了默认格式。

(常见识别错误)

如果科学家们恰好使用这些错误数据来分析,甚至进行临床试验的话,造成的后果无法想象。据一项2016年的调查表明,这类“Bug”非常普遍,以至于 在3597篇样本论文中,约五分之一都受到了影响。

解决这种Bug在Excel软件的层面上并非易事,所以国际人类基因组组织(HUGO)下辖的HGNC(基因命名委员会)才“出此下策”将人类的基因命名尽量避开Excel中的Bug。但是要改变新命名基因在学者们心中的对于该基因的普遍共识,还是一个很缓慢的过程。


(基因名称已更新)

之前密码子实验室在微信文中也为大家介绍了一个免费插件-- Set Escape Excel ,用其来有效的减少因Excel的自动识别而出错的情况,详情请戳: 用Excel做生信分析,千万别栽在这个坑里

术业有专攻。在科研数据分析中,还是推荐大家使用更为专业的工具,比如说 R语言 ,它对数据的处理有详细的日志记录,而且对数据量没有上限要求,或者 SQL 这种高级的非过程化编程语言,可允许用户在高层数据结构上进行工作。

不仅是Excel,OFFICE软件中的PPT和Word,同样都是大家在进行研究时的老朋友。那么这两款软件能否助力我们的科学研究吗?




PPT




PPT这个大家常用于在会议中汇报工作的必备软件,清晰、简洁、逻辑性强的PPT,是进行一个优秀汇报的前提。密码子实验室之前鉴于广大科研工作者的科研需求,为大家分享了 免费的500个PPT模板 ,还没有领取过的伙伴们 赶快关注“密码子实验室” ,回复关键词“ ppt免费素材 ”进行领取吧~

除了制作演示文稿,PPT经常用于 图片排版 ,并且还是 制作矢量图 图片的高手,从小的 实验器材 、到 实验流程 细胞模式图 甚至连绘 制杂志封面插图 都能用其轻松搞定。

如果你觉得AI软件入门实在困难,那么不妨试试PPT吧。

毕竟软件也有专攻,如果涉及到 图形美化、加伪彩 等操作,还是要PS、image J等软件和PPT协同处理。




Word








请到「今天看啥」查看全文