专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
杭州交通918  ·  猝不及防!预警!预警!杭州人下班早点回家 ·  昨天  
FM93交通之声  ·  太突然!知名品牌宣布全球关店 ·  昨天  
中国证券报  ·  涨停!“迪王”归位 ·  2 天前  
51好读  ›  专栏  ›  人工智能学家

密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR

人工智能学家  · 公众号  ·  · 2024-07-28 17:54

正文

在生物信息学领域,Prompt不再是炼金术。
来源:AI科技评论
作者:陈鹭伊

编辑:岑峰

ChatGPT 在2022年横空出世,人工智能领域便迎来了一场新的革命。大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。

但什么是提示词?在早期的计算机交互中,提示词是指在提示符(如MS Dos的C:>或Python的>>>)左侧,用户输入以激发系统做出响应的指令。而在大模型的语境中,提示词则是一种引导性的语句或问题,它犹如魔法咒语,激发着大语言模型的潜能,引导它们按照我们的指令生成文本、回答问题或执行任务。

在与大语言模型的互动中,提示词就像是一把打开知识宝库的钥匙。它不仅是一座沟通的桥梁,更是挖掘语言模型深层潜力的工具。ChatGPT的创始人 Sam Altman 将提示词工程(Prompt Engineering)视为一种用自然语言编程的黑科技,认为这是一种能够带来高回报的技能。

能否让ChatGPT或其他大语言模型给出满意的答案,很大程度上取决于你如何巧妙地使用提示词。随着人工智能生成内容( AIGC )时代的到来,提示词的价值和重要性愈发凸显。

然而,Prompt技术的复杂性远超我们的想象。早期的研究者们在探索Prompt技术时,仿佛是在进行一场炼金术式的探索,充满了不确定性和偶然性。他们通过不断尝试不同的提示词,试图找到能够激发大语言模型最佳表现的“魔法咒语”。这种方法虽然在某些情况下能够奏效,但却缺乏系统性和可复制性。

为了让Prompt技术更进一步,它必须经历一场“从炼金术到化学”的系统发展过程。这意味着我们需要将Prompt技术从一种基于经验的技艺,转变为一门基于科学原理的工程学科。这需要对现有的Prompt技术进行深入的分析和总结,建立起一套完整的理论体系和方法论。

例如:不同的提示词是如何影响大语言模型的理解和生成的?在不同的应用场景下,应该以什么样的原则,去设计和优化提示词?近日,相关论文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。

该论文聚焦于大语言模型在生物信息学领域的应用,主要研究了如何利用大型语言模型(如ChatGPT)来挖掘基因关系,并提出了一种迭代提示优化技术来提高预测基因关系的准确性。论文为生物信息学研究者使用ChatGPT改善工作流程、提高工作效率提供了一种新的思路。

借论文上线,密苏里大学哥伦比亚分校计算机系许东教授向AI科技评论分享了人工智能大型模型在生命科学领域的影响,以及他对如何更好地将大型语言模型应用于生物信息学研究的思考。

论文链接:https://gairdao.com/doi/10.1142/S2972335324500054

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001



1

生物信息学:

迎接第二次繁荣期

回望上个世纪90年代,那是一个被形象地称为生物信息学研究的“寒武纪”时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办,以及生物学信息量的爆炸性增长,加之信息技术的跨时代发展,共同为生物信息学带来了第一次黄金时代,使其成为当时的前沿学科之一。如今,随着人工智能技术的突破,特别是AI大模型在生物信息学中的应用,我们有望迎来生物信息学的第二个繁荣期。

许东教授正是上世纪90年代生物信息学黄金期的亲历者之一。他指出,在生命科学领域,人工智能大型模型的应用已经变得日益广泛,其应用主要集中在以下几个方面:

  • 蛋白质模型:通过利用蛋白质序列训练出的大模型,可以进行各种蛋白质预测任务,包括新蛋白质的设计;
  • 单细胞模型:单细胞数据量巨大,通常一个单细胞实验就涉及数千到数百万个细胞。基于单细胞转录组数据训练的大模型,能够进行大规模的单细胞数据分析;
  • 医学多模态模型:通过整合医学文本(如病历、医生笔记)、图像和其他检查报告等多种数据类型,训练出的大模型,可以用于医学数据分析;
除了上述三个主要领域外,其他如核酸定位、蛋白质与DNA/RNA的相互作用等方面,也有研究者在开发相应的大模型。这些应用场景能够辅助生物信息学家以更快、更精确的方式处理生物信息学问题,从而提升研究效率并降低成本。
然而,尽管AI大模型在生物信息学领域的应用已经取得了一定的进展,但大模型在生物信息学领域的应用目前仍处于早期发展阶段,并存在着许多挑战。首先遇到的一个问题是,AI大模型需要大量高质量的生物信息学数据,但这些数据的质量和完整性可能存在问题;同时目前AI大模型的解释性和可解释性可能存在问题,“幻觉”的存在严重影响着研究的可靠性。
如何解决上述问题,让AI大模型在生物信息学研究中发挥更大作用?许东告诉AI科技评论,Prompt技术为生物信息学领域提供了一种灵活且易于实施的方法,尤其在数据资源有限的情况下,Prompt技术仍可能成为主流方法之一。



2

用提示学习提升AI模型的精准度

在机器学习领域,将Prompt从“基于经验”转变为“基于科学原理”的做法被称为“提示学习”。聊天机器人之所以在很大程度上依赖于提示,是因为ChatGPT的预训练模型中存在大量知识,为了更好地利用这些知识和能力,OpenAI采用了基于人类反馈强化学习( RLHF )方法,通过人类输入来“比对”语言从而达到人机交互的目的。因此,必须仔细设计聊天机器人的提示,以获得有价值、准确和稳健的响应。

提示学习的核心在于将用户输入的文本转化为特定的提示(prompt)格式。这一过程通常包括两种模式:第一种是自编码模式,采用文本中间 占位符 的自然语言模板,让大模型在指定占位符让生成答案文本。第二种是自回归模式,给大模型提供问题与背景信息,让大模型自由发挥生成答案文本。这些方法实质上是为预训练语言模型设计任务,包括输入模板、标签样式以及模型输出与标签的对应关系。

论文的研究正是在此基础上,将自回归模式的提示学习用于复杂的生物信息学场景中,并利用迭代提示优化、思维链等技术,通过与ChatGPT的交互,逐步优化提示,以提高预测基因关系的准确性。

(利用 GPT 模型进行基因关系挖掘的迭代提示细化框架。该方法利用 GPT-4 的高级逻辑能力来自主改进提示,并利用 GPT-3.5 的低成本和高速进行初始基于事实的查询处理。)

这项工作的关键点之一是元提示设计(Meta-Prompt Design):元提示为对话机器人设定角色,提示来指导GPT-4进行提示优化,增强回答的专业性。元提示包含具体指令,如改变角色、省略细节等,以提高提示的有效性。

另一关键点则是迭代优化技术的引入,利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示,然后评估这些提示的效果(如F-1分数、精确度和召回率);将预测结果与实际数据(如KEGG数据库)进行比较,识别错误和不足,然后将这些反馈信息用于进一步优化提示;最后将优化后的模型应用于KEGG Pathway Database进行基准测试,以验证其在解析复杂基因关系和疾病相关途径方面的有效性。

此外,论文还引入了思维链(Chain-of-Thought)和思维树(Tree-of-Thought)策略,引导ChatGPT进行更深入的逻辑推理,提高答案的准确性和深度;同时将复杂问题分解为更易于管理的子问题序列,逐步引导ChatGPT构建更完整的答案,这种方法特别适用于复杂的基因关系网络构建。

实验结果表明,通过迭代提示优化技术,ChatGPT在预测基因关系方面的准确性显著提高。特别是在复杂基因关系和疾病相关途径的解析中,展示了其潜力和有效性。



3






请到「今天看啥」查看全文