如何让AI不一本正经地“胡说八道”？研发还需这一良方

NaturePortfolio · 公众号 · 科研 · 2025-02-28 12:40

正文

数字化时代，研究人员面临着前所未有的信息洪流，面对让人眼花缭乱的资源，仅仅是辨别哪些内容与自己的工作相关就充满挑战，更不要说从中提取有价值的信息并形成独到的见解了。AI助手如ChatGPT、DeepSeek虽擅长汇总信息、迅速响应查询，但是如何确保它们反馈的信息准确无误、质量上乘，而不是一本正经的“胡言乱语”？

相信不少研究人员听说过 TDM——text and data mining文本和数据挖掘 ，它使用计算工具和技术来分析大型文本数据集，从学术论文、期刊和其他科学出版物中的大量科学数据里提取有价值的信息，并识别出通过传统人工分析难以或无法发现的模式、关联和趋势。从学术研究、医疗诊断到市场趋势分析， 越来越多的领域都在使用TDM从繁杂的数据集中获得可付诸实践的见解。

随着大型基础模型和其他机器学习与深度学习模型的发展，如今数据科学家利用已发表研究的语料库来训练自己的模型。这些模型不限于传统的描述性分析，还能提供预测性和规范性分析。例如谷歌的AlphaFold可预测蛋白质的折叠方式，充分展示了这类工具的强大功能。TDM能够帮助研究人员获取并更高效地处理信息，如果 将TDM和AI工具相结合 能擦出什么样的火花？是否能够更加充分、负责任地发挥二者的更大价值？

去年，在一次以文本和数据挖掘（TDM）为主题的网络研讨会上，施普林格·自然数据解决方案及战略主管Prathik Roy博士探讨了TDM与AI相结合的先进技术，并展示了不同学科领域的四个案例——其中两个来自生物医学领域，另外两个分别来自材料科学和金融科技领域。这些案例表明， 在AI工具的加持下，利用施普林格·自然海量的出版物资源开展TDM拥有巨大潜力。 我们希望借此启发研究人员、数据科学家和研发部门从业者，并为如何 将TDM引入企业研发架构提供建议。

AI医疗独角兽BenevolentAI如何利用TDM助力其药物研发？

若能把临床试验报告、专利、期刊、图书以及病历等多个来源的数据结合起来，您将获得基因、症状、疾病、蛋白质、组织、物种和候选药物之间超过10亿条关联。

BenevolentAI是一家领先的AI药物发现公司，早在2018年，BenevolentAI便与施普林格·自然建立了合作，利用我们的TDM工具获取优质丰富的资源，并使用这些数据集训练和构建模型，以发现与特定医疗状况相关的基因，并据此寻找有效的候选化合物。在疫情期间，该公司还发现了Covid-19的潜在候选药物。

TDM如何助力这家大型抗体搜索引擎公司？

CiteAb是一家专业提供试剂搜索引擎的公司，致力于构建并训练模型以从文献中提取试剂信息。

CiteAb使用施普林格·自然的TDM检索了6万份科学出版物的全文，识别被使用的试剂产品以及它们如何被使用，并将这些信息转化为支持其搜索引擎的结构化数据。随后利用这些数据来训练AI，并在此过程中不断增强和完善模型，最终能够迅速寻找并提取文献中的试剂和抗体信息。这个过程高度自动化，采用了多种不同的文本挖掘方法，从简单的模式匹配到人工智能分类器，还纳入了人工审查环节以检查算法无法处理的边缘情况。

TDM如何支持半导体设计？

在材料科学中，基于AI模型的材料数据挖掘扩展了研究人员的能力边界。起初，研究人员利用TDM从材料科学综合数据库中查找晶体结构数据和材料性质。

下一阶段便是利用材料成分预测其结构和性质。如今，AI模型能通过预测性分析生成统计驱动的材料设计。这意味着，研究人员能利用物理化学数据设计一种具有理想成分、结构和性质的材料，甚至在实际合成与评价之前就能进行虚拟实验。

目前为止，这种方法已在半导体设计领域产生了巨大影响，而这又推动了集成电路（IC）和芯片设计的发展。该方法已将IC设计的延期率降低至10%以下，最多可使工期缩短10%。

TDM如何助力金融科技？

甚至连金融机构都对文献TDM产生了兴趣。利用模型和TDM技术从研究语料库中提取信息，让它们能更好地理解和分析供应链——尤其是化工产业供应链。它还有助于了解研发公司的研究模式对于其股票市场表现的影响。

他们为什么选择施普林格·自然？

这些用例都建立在施普林格·自然数据库的基础上，同时施普林格·自然的TDM提供了模型所用数据的访问权限。

施普林格·自然创建了一套正式的TDM流程并开发了多个API工具，此外，我们丰富的出版物资源和数据库包含大量扎实且经过验证的研究。

我们的数据库均符合FAIR原则，旨在让用户可以轻松获取，即：

可发现： 严密的元数据和其他元素输入可发现性平台和/或应用中。

可访问： 资料必须能同时供人和机器读取和操作，并尽可能实现可公开获取。

可互操作： 使用专门的元数据词汇表整理数据，尽可能满足多种数字化实验室应用场景。

可重复使用： 经验证的数据直接与相关的研究要素相连。

我们还开发了多个TDM的API工具，方便研究人员对我们丰富的出版物资源进行文本和数据挖掘。

适用于开放获取内容的TDM

施普林格·自然开放获取内容API：提供施普林格·自然开放获取XML格式的元数据和全文内容（如有），覆盖来自不同学科领域、超649,000篇在线文献，其中包括BioMed Central和SpringerOpen期刊。我们支持XML、JSON等多种数据输出格式。

适用于订阅用户的TDM

针对订阅用户，施普林格·自然提供各种各样的TDM组合数据，如元数据或全文API，同时适用于开放获取和订阅内容。

除知名的《自然》系列期刊和Springer Nature link期刊、图书之外，施普林格·自然还拥有SpringerMaterials、AdisInsight、SpringerProtocols等专业数据库。

如何让AI不一本正经地“胡说八道”？研发还需这一良方

正文

请到「今天看啥」查看全文