数字化时代,研究人员面临着前所未有的信息洪流,面对让人眼花缭乱的资源,仅仅是辨别哪些内容与自己的工作相关就充满挑战,更不要说从中提取有价值的信息并形成独到的见解了。AI助手如ChatGPT、DeepSeek虽擅长汇总信息、迅速响应查询,但是如何确保它们反馈的信息准确无误、质量上乘,而不是一本正经的“胡言乱语”?
相信不少研究人员听说过
TDM——text and data mining文本和数据挖掘
,它使用计算工具和技术来分析大型文本数据集,从学术论文、期刊和其他科学出版物中的大量科学数据里提取有价值的信息,并识别出通过传统人工分析难以或无法发现的模式、关联和趋势。从学术研究、医疗诊断到市场趋势分析,
越来越多的领域都在使用TDM从繁杂的数据集中获得可付诸实践的见解。
随着大型基础模型和其他机器学习与深度学习模型的发展,如今数据科学家利用已发表研究的语料库来训练自己的模型。这些模型不限于传统的描述性分析,还能提供预测性和规范性分析。例如谷歌的AlphaFold可预测蛋白质的折叠方式,充分展示了这类工具的强大功能。TDM能够帮助研究人员获取并更高效地处理信息,如果
将TDM和AI工具相结合
能擦出什么样的火花?是否能够更加充分、负责任地发挥二者的更大价值?
去年,在一次以文本和数据挖掘(TDM)为主题的网络研讨会上,施普林格·自然数据解决方案及战略主管Prathik Roy博士探讨了TDM与AI相结合的先进技术,并展示了不同学科领域的四个案例——其中两个来自生物医学领域,另外两个分别来自材料科学和金融科技领域。这些案例表明,
在AI工具的加持下,利用施普林格·自然海量的出版物资源开展TDM拥有巨大潜力。
我们希望借此启发研究人员、数据科学家和研发部门从业者,并为如何
将TDM引入企业研发架构提供建议。
AI医疗独角兽BenevolentAI如何利用TDM助力其药物研发?
若能把临床试验报告、专利、期刊、图书以及病历等多个来源的数据结合起来,您将获得基因、症状、疾病、蛋白质、组织、物种和候选药物之间超过10亿条关联。
BenevolentAI是一家领先的AI药物发现公司,早在2018年,BenevolentAI便与施普林格·自然建立了合作,利用我们的TDM工具获取优质丰富的资源,并使用这些数据集训练和构建模型,以发现与特定医疗状况相关的基因,并据此寻找有效的候选化合物。在疫情期间,该公司还发现了Covid-19的潜在候选药物。
CiteAb是一家专业提供试剂搜索引擎的公司,致力于构建并训练模型以从文献中提取试剂信息。
CiteAb使用施普林格·自然的TDM检索了6万份科学出版物的全文,识别被使用的试剂产品以及它们如何被使用,并将这些信息转化为支持其搜索引擎的结构化数据。随后利用这些数据来训练AI,并在此过程中不断增强和完善模型,最终能够迅速寻找并提取文献中的试剂和抗体信息。这个过程高度自动化,采用了多种不同的文本挖掘方法,从简单的模式匹配到人工智能分类器,还纳入了人工审查环节以检查算法无法处理的边缘情况。
在材料科学中,基于AI模型的材料数据挖掘扩展了研究人员的能力边界。起初,研究人员利用TDM从材料科学综合数据库中查找晶体结构数据和材料性质。
下一阶段便是利用材料成分预测其结构和性质。如今,AI模型能通过预测性分析生成统计驱动的材料设计。这意味着,研究人员能利用物理化学数据设计一种具有理想成分、结构和性质的材料,甚至在实际合成与评价之前就能进行虚拟实验。
目前为止,这种方法已在半导体设计领域产生了巨大影响,而这又推动了集成电路(IC)和芯片设计的发展。该方法已将IC设计的延期率降低至10%以下,最多可使工期缩短10%。
甚至连金融机构都对文献TDM产生了兴趣。利用模型和TDM技术从研究语料库中提取信息,让它们能更好地理解和分析供应链——尤其是化工产业供应链。它还有助于了解研发公司的研究模式对于其股票市场表现的影响。
这些用例都建立在施普林格·自然数据库的基础上,同时施普林格·自然的TDM提供了模型所用数据的访问权限。
施普林格·自然创建了一套正式的TDM流程并开发了多个API工具,此外,我们丰富的出版物资源和数据库包含大量扎实且经过验证的研究。
我们的数据库均符合FAIR原则,旨在让用户可以轻松获取,即:
可发现:
严密的元数据和其他元素输入可发现性平台和/或应用中。
可访问:
资料必须能同时供人和机器读取和操作,并尽可能实现可公开获取。
可互操作:
使用专门的元数据词汇表整理数据,尽可能满足多种数字化实验室应用场景。
可重复使用:
经验证的数据直接与相关的研究要素相连。
我们还开发了多个TDM的API工具,方便研究人员对我们丰富的出版物资源进行文本和数据挖掘。
施普林格·自然开放获取内容API:提供施普林格·自然开放获取XML格式的元数据和全文内容(如有),覆盖来自不同学科领域、超649,000篇在线文献,其中包括BioMed Central和SpringerOpen期刊。我们支持XML、JSON等多种数据输出格式。
针对订阅用户,施普林格·自然提供各种各样的TDM组合数据,如元数据或全文API,同时适用于开放获取和订阅内容。
除知名的《自然》系列期刊和Springer Nature link期刊、图书之外,施普林格·自然还拥有SpringerMaterials、AdisInsight、SpringerProtocols等专业数据库。