只有很少的科研资助机构主动承担这两项工作。例如NASA、美国国立卫生研究院(NIH)、欧洲生物信息研究所等。中国国家自然科学基金委员会也有意能为其资助的研究提供一个数据开放平台。欧盟委员会则希望通过“欧洲开放科学云”来提供这样的平台。英国的社科及人文科学数据档案馆,以及DANS (荷兰数字科研资源永久获取研究所),也都是政府提供扶持的良好范例。
但在许多情况下,政府机构缺乏建立数据共享平台的资金,也不愿为这样的基础设施承担责任。他们或许希望依靠大学来架设数据平台,但机构知识库的发展不均衡,依靠他们事实上不利于建立共同的数据标准和进行管护。
另外也有一些商业性的数据平台,比如《自然》所有人霍尔茨布林克出版集团旗下的figshare 。这些平台也很有用,因此一些资助机构,例如瑞士国家科学基金会,禁止基金获得者使用此类平台的做法无疑是不明智的。此外,还有Dryhad等非营利的知识库。
《自然》十分清楚,提供数据托管服务或发布数据花费不菲。平台的技术更新、数据核实和管护都需要很大一笔资金。举例来说,预印本服务器arXiv 2017年的运营成本约为130万美元;英国数据档案馆的2015年度预算约为550万英镑。长久以来,人们在公共讨论中忽视了开放数据的真正成本。如果政府和资助机构提供更多实质性的支持,就能产生意想不到的成效。
自下而上,来自研究者分享数据的积极性也是至关重要的——而这需要加强激励。
多年来,基因组学和结构生物学界一直在坚持及时存储开放数据,并为此提供相关设施。其它领域在数据所有权方面也有长期的传统。例如,开发卫星用仪器的天文学家通常对新数据拥有一年的专有访问权,但许多天文机构也制定了自己的内部规则。即使期刊坚持让读者能立即获得所发表论文的数据,研究者可能还是要过几个月才提供完整的数据集和分析数据所需的软件。考虑到数据和惯例做法的多样性,资助机构、研究人员和期刊应该共同推动完整数据集及所需源代码的开放。
哪些领域需要改善数据可获取性呢?《自然》建议,测地学和地震学界应考虑缩短目前的两年禁发期。微生物组学界十分重视开放数据,但作为一个相对年轻的领域,仍正在努力制定相关的标准。
有两个领域在这方面取得了进步,值得点赞。在病原体基因组学领域,我们在本期《自然》发表的三篇寨卡病毒基因组文章的作者在序列数据一经测得就予以公开了。
同时,古生物学家在开放3D数据方面所做出的努力也值得赞扬。近期的一篇论文《开放数据与数字形态学》(Open data and digital morphology)提出了有关生成、存储、发表和传播大型3D数据集的最佳做法,还推荐了文件格式和数据知识库。论文的结论是,3D数据应该在文章发表后立即公开,并同时尽可能详细地提供数据性质和收集背景方面的细节。
在研究人员已建立明确的标准和知识库的情况下,《自然》很乐意帮助他们将该标准和知识库的使用作为发表的条件。如果缺少这种一致性,我们必定要采取分情况处理的方式。尽管经历了多年的讨论,资助机构、研究人员和期刊仍然有很多工作要做,才能通过增加数据的可访问性来提高研究的透明度和可重复性。ⓝ
Nature|doi:10.1038/546327a