科研社区中,越来越提倡数据共享,最初的目的是让科研过程公开透明,提高科研成果的可重复性。但另有一个用处,就是教育。利用真实科研活动中产生的数据进行案例学习,能把数据放到具体的故事情节中去理解,明白它的意义所在,迅速敲开科研的大门。
不过说了这么多,原始数据到底怎么找?
直接从文献中找
这当然是第一来源啦,读到了遇到了就拿来用了。
但如果读到的文献中有感兴趣的方法,恰好它又没有附送原始数据怎么办?搜另一篇采用同一方法的、附送原始数据的文献吗?倒也不失为一个办法,麦子也曾经这么做。在一些较大的期刊网站上搜“关键词+supplementary”,也挺管用的。
但后来觉得这个方法有点中二,别说补充材料别名繁多,像什么additional data,supporting information之类,有时候即使有了supplementary,也不一定有原始数据呀。而且那些非OA的文章,你也是能在网站上搜到supplementary字样的,但你就是拿不到呀~Sci-hub是不负责帮你偷补充材料的哟。
这时就会想,有没有什么网站是集中收集原始数据或补充材料的呢?
Dryad:科研教育是它的初心
地址:http://datadryad.org/
这是由美国国家科学基金会资助建立的非盈利性公共科研数据共享平台,通过跟期刊、机构、基金组织合作的方式,倡导作者们将数据提交到这个库中,与文章同时发表。它创办的目的之一,正是让学生们能利用真实数据学做科研。
它收集的数据大多来自OA期刊,或混合期刊上的OA文章。但也会有些例外,比如2016年下载量排行第2的那份数据就来自Science,分析了全球科研汪们对Sci-hub的使用情况。不仅提供了2.7G(压缩后684.5M)原始数据,还给出了处理、分析这些数据所使用的Python代码,简直手把手带你上路:
后一句注释真是温心=_=
但这篇文章并不是OA的,还是要通过Sci-hub获取原文:
下载量第4的数据来自一份心脏病学的研究(JACC Cardiovasc Interv. 2016;9(8):757-67.)。763位受试者的观察数据全部以.csv表格形式上传,压缩后172.9M。像这么大的数据是不太可能上传到期刊的存储库里作为补充材料的,换言之,用上面那个土办法很难找到。图就不贴了。
FigShare:资源更广,搜索更方便
地址:https://figshare.com/
这货的界面粉嫩得不像个学术网站,但它真的是跟多家学术出版商有合作的数据共享平台,如 Wiley,SpringerNature,Taylor and Francis,PNAS等。它是由Digital Science公司开发的,致力于提高“研究内容”的可见性。不仅是补充材料,正文中的图表也能搜到。
它相对于Dryad,搜索更便捷。想学习Keplan Meier生存分析,搜关键词,就得到相应的图片、数据集,也可在文件类型列表里勾选Dataset进行过滤:
而且它支持多种文件格式的预览,不仅是图片,那些数据集也可点进相应页面,看到具体内容。
它也有Dryad入口(https://dryad.figshare.com/):
当然这两个网站都会在数据页面附上原文链接。这样差不多就够用了。
这些网站也有局限性,因为数据共享还只是部分科学家的倡议,实践之路才刚开始。2000年以前,上传补充材料的文章都寥寥可数,现在虽然有了飞速增涨,但数据共享仍然是个新概念。简而言之,能拿到的数据,不如文献那样丰富。
如果你还没体会到这些数据的好处,那我告诉你,我曾经悄悄带领你利用那些数据来学习,最典型的是这个:《Cytoscape:庞大的相互作用网络出图神器》。所以将来你发了文章,麦子当然希望你也能上传数据跟大家共享啦~
再说远一点,这些网站创立的目的,不仅仅是教育和传播科研成果,还有已发表数据的再利用,挖出更多的价值。从你的研究视角出发来搜一搜,看看能不能发现什么新的东西,说不定一篇文章就从这些数据中诞生了呢。