专栏名称: NaturePortfolio
Nature Research官方账号,介绍中国及世界科技出版业最新动态,如何在Nature及其子刊上发表论文,针对中国研究人员的最新产品及服务。
目录
相关文章推荐
小张聊科研  ·  《BIO ... ·  2 天前  
小张聊科研  ·  除了免疫检查点PD1/PDL1? ... ·  3 天前  
小张聊科研  ·  关注线粒体转移的同学,一定要看这篇综述! ·  5 天前  
51好读  ›  专栏  ›  NaturePortfolio

如何让AI不一本正经地“胡说八道”?研发还需这一良方

NaturePortfolio  · 公众号  · 科研  · 2025-02-28 12:40

正文

数字化时代,研究人员面临着前所未有的信息洪流,面对让人眼花缭乱的资源,仅仅是辨别哪些内容与自己的工作相关就充满挑战,更不要说从中提取有价值的信息并形成独到的见解了。AI助手如ChatGPT、DeepSeek虽擅长汇总信息、迅速响应查询,但是如何确保它们反馈的信息准确无误、质量上乘,而不是一本正经的“胡言乱语”?


相信不少研究人员听说过 TDM——text and data mining文本和数据挖掘 ,它使用计算工具和技术来分析大型文本数据集,从学术论文、期刊和其他科学出版物中的大量科学数据里提取有价值的信息,并识别出通过传统人工分析难以或无法发现的模式、关联和趋势。从学术研究、医疗诊断到市场趋势分析, 越来越多的领域都在使用TDM从繁杂的数据集中获得可付诸实践的见解。



随着大型基础模型和其他机器学习与深度学习模型的发展,如今数据科学家利用已发表研究的语料库来训练自己的模型。这些模型不限于传统的描述性分析,还能提供预测性和规范性分析。例如谷歌的AlphaFold可预测蛋白质的折叠方式,充分展示了这类工具的强大功能。TDM能够帮助研究人员获取并更高效地处理信息,如果 将TDM和AI工具相结合 能擦出什么样的火花?是否能够更加充分、负责任地发挥二者的更大价值?


去年,在一次以文本和数据挖掘(TDM)为主题的网络研讨会上,施普林格·自然数据解决方案及战略主管Prathik Roy博士探讨了TDM与AI相结合的先进技术,并展示了不同学科领域的四个案例——其中两个来自生物医学领域,另外两个分别来自材料科学和金融科技领域。这些案例表明, 在AI工具的加持下,利用施普林格·自然海量的出版物资源开展TDM拥有巨大潜力。 我们希望借此启发研究人员、数据科学家和研发部门从业者,并为如何 将TDM引入企业研发架构提供建议。


AI医疗独角兽BenevolentAI如何利用TDM助力其药物研发?

若能把临床试验报告、专利、期刊、图书以及病历等多个来源的数据结合起来,您将获得基因、症状、疾病、蛋白质、组织、物种和候选药物之间超过10亿条关联。


BenevolentAI是一家领先的AI药物发现公司,早在2018年,BenevolentAI便与施普林格·自然建立了合作,利用我们的TDM工具获取优质丰富的资源,并使用这些数据集训练和构建模型,以发现与特定医疗状况相关的基因,并据此寻找有效的候选化合物。在疫情期间,该公司还发现了Covid-19的潜在候选药物。



TDM如何助力这家大型抗体搜索引擎公司?

CiteAb是一家专业提供试剂搜索引擎的公司,致力于构建并训练模型以从文献中提取试剂信息。


CiteAb使用施普林格·自然的TDM检索了6万份科学出版物的全文,识别被使用的试剂产品以及它们如何被使用,并将这些信息转化为支持其搜索引擎的结构化数据。随后利用这些数据来训练AI,并在此过程中不断增强和完善模型,最终能够迅速寻找并提取文献中的试剂和抗体信息。这个过程高度自动化,采用了多种不同的文本挖掘方法,从简单的模式匹配到人工智能分类器,还纳入了人工审查环节以检查算法无法处理的边缘情况。



TDM如何支持半导体设计?

在材料科学中,基于AI模型的材料数据挖掘扩展了研究人员的能力边界。起初,研究人员利用TDM从材料科学综合数据库中查找晶体结构数据和材料性质。


下一阶段便是利用材料成分预测其结构和性质。如今,AI模型能通过预测性分析生成统计驱动的材料设计。这意味着,研究人员能利用物理化学数据设计一种具有理想成分、结构和性质的材料,甚至在实际合成与评价之前就能进行虚拟实验。


目前为止,这种方法已在半导体设计领域产生了巨大影响,而这又推动了集成电路(IC)和芯片设计的发展。该方法已将IC设计的延期率降低至10%以下,最多可使工期缩短10%。


TDM如何助力金融科技?

甚至连金融机构都对文献TDM产生了兴趣。利用模型和TDM技术从研究语料库中提取信息,让它们能更好地理解和分析供应链——尤其是化工产业供应链。它还有助于了解研发公司的研究模式对于其股票市场表现的影响。


他们为什么选择施普林格·自然?

这些用例都建立在施普林格·自然数据库的基础上,同时施普林格·自然的TDM提供了模型所用数据的访问权限。


施普林格·自然创建了一套正式的TDM流程并开发了多个API工具,此外,我们丰富的出版物资源和数据库包含大量扎实且经过验证的研究。


我们的数据库均符合FAIR原则,旨在让用户可以轻松获取,即:

可发现: 严密的元数据和其他元素输入可发现性平台和/或应用中。

可访问: 资料必须能同时供人和机器读取和操作,并尽可能实现可公开获取。

可互操作: 使用专门的元数据词汇表整理数据,尽可能满足多种数字化实验室应用场景。

可重复使用: 经验证的数据直接与相关的研究要素相连。


我们还开发了多个TDM的API工具,方便研究人员对我们丰富的出版物资源进行文本和数据挖掘。


适用于开放获取内容的TDM

施普林格·自然开放获取内容API:提供施普林格·自然开放获取XML格式的元数据和全文内容(如有),覆盖来自不同学科领域、超649,000篇在线文献,其中包括BioMed Central和SpringerOpen期刊。我们支持XML、JSON等多种数据输出格式。


适用于订阅用户的TDM

针对订阅用户,施普林格·自然提供各种各样的TDM组合数据,如元数据或全文API,同时适用于开放获取和订阅内容。


除知名的《自然》系列期刊和Springer Nature link期刊、图书之外,施普林格·自然还拥有SpringerMaterials、AdisInsight、SpringerProtocols等专业数据库。







请到「今天看啥」查看全文