密苏里大学许东：大模型时代，Prompt 为生物信息学研究带来新动力丨IJAIRR

人工智能学家 · 公众号 · · 2024-07-28 17:54

正文

在生物信息学领域，Prompt不再是炼金术。

来源：AI科技评论

作者：陈鹭伊

编辑：岑峰

自 ChatGPT 在2022年横空出世，人工智能领域便迎来了一场新的革命。大语言模型（LLMs）以其卓越的文本处理能力，迅速成为研究者和开发者的新宠。随着这些模型的崛起，如何与它们有效交互的问题也日益凸显，提示词（Prompt）的概念逐渐成为研究的热点。

但什么是提示词？在早期的计算机交互中，提示词是指在提示符（如MS Dos的C:>或Python的>>>）左侧，用户输入以激发系统做出响应的指令。而在大模型的语境中，提示词则是一种引导性的语句或问题，它犹如魔法咒语，激发着大语言模型的潜能，引导它们按照我们的指令生成文本、回答问题或执行任务。

在与大语言模型的互动中，提示词就像是一把打开知识宝库的钥匙。它不仅是一座沟通的桥梁，更是挖掘语言模型深层潜力的工具。ChatGPT的创始人 Sam Altman 将提示词工程（Prompt Engineering）视为一种用自然语言编程的黑科技，认为这是一种能够带来高回报的技能。

能否让ChatGPT或其他大语言模型给出满意的答案，很大程度上取决于你如何巧妙地使用提示词。随着人工智能生成内容（ AIGC ）时代的到来，提示词的价值和重要性愈发凸显。

然而，Prompt技术的复杂性远超我们的想象。早期的研究者们在探索Prompt技术时，仿佛是在进行一场炼金术式的探索，充满了不确定性和偶然性。他们通过不断尝试不同的提示词，试图找到能够激发大语言模型最佳表现的“魔法咒语”。这种方法虽然在某些情况下能够奏效，但却缺乏系统性和可复制性。

为了让Prompt技术更进一步，它必须经历一场“从炼金术到化学”的系统发展过程。这意味着我们需要将Prompt技术从一种基于经验的技艺，转变为一门基于科学原理的工程学科。这需要对现有的Prompt技术进行深入的分析和总结，建立起一套完整的理论体系和方法论。

例如：不同的提示词是如何影响大语言模型的理解和生成的？在不同的应用场景下，应该以什么样的原则，去设计和优化提示词？近日，相关论文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》，上线期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。

该论文聚焦于大语言模型在生物信息学领域的应用，主要研究了如何利用大型语言模型（如ChatGPT）来挖掘基因关系，并提出了一种迭代提示优化技术来提高预测基因关系的准确性。论文为生物信息学研究者使用ChatGPT改善工作流程、提高工作效率提供了一种新的思路。

借论文上线，密苏里大学哥伦比亚分校计算机系许东教授向AI科技评论分享了人工智能大型模型在生命科学领域的影响，以及他对如何更好地将大型语言模型应用于生物信息学研究的思考。

论文链接：https://gairdao.com/doi/10.1142/S2972335324500054

论文引用链接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001

生物信息学：

迎接第二次繁荣期

回望上个世纪90年代，那是一个被形象地称为生物信息学研究的“寒武纪”时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办，以及生物学信息量的爆炸性增长，加之信息技术的跨时代发展，共同为生物信息学带来了第一次黄金时代，使其成为当时的前沿学科之一。如今，随着人工智能技术的突破，特别是AI大模型在生物信息学中的应用，我们有望迎来生物信息学的第二个繁荣期。

许东教授正是上世纪90年代生物信息学黄金期的亲历者之一。他指出，在生命科学领域，人工智能大型模型的应用已经变得日益广泛，其应用主要集中在以下几个方面：

蛋白质模型：通过利用蛋白质序列训练出的大模型，可以进行各种蛋白质预测任务，包括新蛋白质的设计；
单细胞模型：单细胞数据量巨大，通常一个单细胞实验就涉及数千到数百万个细胞。基于单细胞转录组数据训练的大模型，能够进行大规模的单细胞数据分析；
医学多模态模型：通过整合医学文本（如病历、医生笔记）、图像和其他检查报告等多种数据类型，训练出的大模型，可以用于医学数据分析；

除了上述三个主要领域外，其他如核酸定位、蛋白质与DNA/RNA的相互作用等方面，也有研究者在开发相应的大模型。这些应用场景能够辅助生物信息学家以更快、更精确的方式处理生物信息学问题，从而提升研究效率并降低成本。

然而，尽管AI大模型在生物信息学领域的应用已经取得了一定的进展，但大模型在生物信息学领域的应用目前仍处于早期发展阶段，并存在着许多挑战。首先遇到的一个问题是，AI大模型需要大量高质量的生物信息学数据，但这些数据的质量和完整性可能存在问题；同时目前AI大模型的解释性和可解释性可能存在问题，“幻觉”的存在严重影响着研究的可靠性。

如何解决上述问题，让AI大模型在生物信息学研究中发挥更大作用？许东告诉AI科技评论，Prompt技术为生物信息学领域提供了一种灵活且易于实施的方法，尤其在数据资源有限的情况下，Prompt技术仍可能成为主流方法之一。

用提示学习提升AI模型的精准度

在机器学习领域，将Prompt从“基于经验”转变为“基于科学原理”的做法被称为“提示学习”。聊天机器人之所以在很大程度上依赖于提示，是因为ChatGPT的预训练模型中存在大量知识，为了更好地利用这些知识和能力，OpenAI采用了基于人类反馈强化学习（ RLHF ）方法，通过人类输入来“比对”语言从而达到人机交互的目的。因此，必须仔细设计聊天机器人的提示，以获得有价值、准确和稳健的响应。

提示学习的核心在于将用户输入的文本转化为特定的提示（prompt）格式。这一过程通常包括两种模式：第一种是自编码模式，采用文本中间占位符的自然语言模板，让大模型在指定占位符让生成答案文本。第二种是自回归模式，给大模型提供问题与背景信息，让大模型自由发挥生成答案文本。这些方法实质上是为预训练语言模型设计任务，包括输入模板、标签样式以及模型输出与标签的对应关系。

论文的研究正是在此基础上，将自回归模式的提示学习用于复杂的生物信息学场景中，并利用迭代提示优化、思维链等技术，通过与ChatGPT的交互，逐步优化提示，以提高预测基因关系的准确性。

（利用 GPT 模型进行基因关系挖掘的迭代提示细化框架。该方法利用 GPT-4 的高级逻辑能力来自主改进提示，并利用 GPT-3.5 的低成本和高速进行初始基于事实的查询处理。）

这项工作的关键点之一是元提示设计（Meta-Prompt Design）：元提示为对话机器人设定角色，提示来指导GPT-4进行提示优化，增强回答的专业性。元提示包含具体指令，如改变角色、省略细节等，以提高提示的有效性。

另一关键点则是迭代优化技术的引入，利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示，然后评估这些提示的效果（如F-1分数、精确度和召回率）；将预测结果与实际数据（如KEGG数据库）进行比较，识别错误和不足，然后将这些反馈信息用于进一步优化提示；最后将优化后的模型应用于KEGG Pathway Database进行基准测试，以验证其在解析复杂基因关系和疾病相关途径方面的有效性。

此外，论文还引入了思维链（Chain-of-Thought）和思维树（Tree-of-Thought）策略，引导ChatGPT进行更深入的逻辑推理，提高答案的准确性和深度；同时将复杂问题分解为更易于管理的子问题序列，逐步引导ChatGPT构建更完整的答案，这种方法特别适用于复杂的基因关系网络构建。

实验结果表明，通过迭代提示优化技术，ChatGPT在预测基因关系方面的准确性显著提高。特别是在复杂基因关系和疾病相关途径的解析中，展示了其潜力和有效性。

密苏里大学许东：大模型时代，Prompt 为生物信息学研究带来新动力丨IJAIRR

正文

请到「今天看啥」查看全文