专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
OSC开源社区  ·  宇树王兴兴早年创业分享引围观 ·  2 天前  
OSC开源社区  ·  升级到Svelte ... ·  3 天前  
程序猿  ·  “我真的受够了Ubuntu!” ·  昨天  
程序员小灰  ·  DeepSeek做AI代写,彻底爆了! ·  3 天前  
待字闺中  ·  DeepSeek 爆火带来的大变化 ·  1 周前  
51好读  ›  专栏  ›  SegmentFault思否

全球最大 COVID-19 研究数据集正式开放,加强科技抗疫

SegmentFault思否  · 公众号  · 程序员  · 2020-03-18 11:50

正文

近日,全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个 COVID-19 开放研究数据集 (简称为 CORD-19 ) ,该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy 、在科学文本上进行预训练的 BERT 模型 SciBERT 开放研究语料库 API 等,并汇集了有关 SARS-CoV -2 病毒 内容在内的近 29,000 篇文章。此次公开的数据集是机器可读的,因此可以轻松地进行解析,以用于机器学习目的。

该项目由 艾伦 AI 研究所 Chan Zuckerberg Initiative (CZI) 乔治敦大学安 全与新兴技术中心 (CSET) 微软 以及 美国国立卫生研究院国家医学图书馆 (NLM) 等机构组成。在新闻发布会上,美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最广泛的机器可读冠状病毒文献集”。


多年来,科学家一直在研究和发表有关各种冠状病毒株的发现,包括 SARS MERS 和最新的 COVID-19 等其他变体。微软首席科学官埃里克·霍维茨 (Eric Horvitz) 说,利用人工智能工具寻找数千篇此类已发表文章的共性和差异,将有助于科学家发现他们可能错过的事物。

Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示:“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。我们将这些文章的机器可读版本显示在我们超过 400 万数据科学家的社区中。我们希望,人工智能可以用来帮助找到有关 COVID-19 的一系列关键问题的答案。”

Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示:“在科学界和医学界之间共享重要信息,对于提高我们应对冠状病毒大流行的能力至关重要,新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”

据悉,科学期刊和文学的出版商已经同意将其完整的文章提供给研究人员,以便机器学习算法可以从中寻找关键的见解。他们说,随着世界各地科学家继续发表新的研究成果,期刊出版商已经同意在印刷版本之前以电子形式提供这些文章。






请到「今天看啥」查看全文


推荐文章
OSC开源社区  ·  宇树王兴兴早年创业分享引围观
2 天前
程序猿  ·  “我真的受够了Ubuntu!”
昨天
程序员小灰  ·  DeepSeek做AI代写,彻底爆了!
3 天前
待字闺中  ·  DeepSeek 爆火带来的大变化
1 周前
考研研学姐  ·  复试十大面试问题应急预案!
8 年前
今日房产  ·  那些年大佬们拍过的胸脯:张玉良
7 年前
每日英语  ·  一张图搞定42种表情的英文表达
7 年前
半导体行业联盟  ·  一期59亿,长江存储又一重大工程开工
7 年前