本文讨论了大语言模型、提示学习在科研与产业界的应用前景,揭示了AI与科研和产业的新未来。作者通过引入生物信息学领域的应用案例,展示了大模型技术在科研工作中的潜力,并探讨了其在多个领域的实际应用,包括生物信息学、材料科学、药物发现等。文章还讨论了美国密苏里大学电子工程和计算机科学系校董讲座教授许东教授的一篇论文,聚焦大语言模型在生物信息学领域的应用,并提到了大模型在数据安全和隐私保护方面的挑战。同时,文章通过线上圆桌论坛的形式,汇聚了多位行业专家,共同探讨了大模型在科技研发中的应用与潜力,并强调了其在教育领域的潜力。
大模型技术从理论走向实践,在科研与产业界发挥重要作用,尤其在生物信息学、材料科学、药物发现等领域。
通过线上圆桌论坛,行业专家共同探讨了大模型在科技研发中的应用与潜力,包括在生物信息学、药物发现等领域的实际应用。
大模型在教育领域具有巨大潜力,能够帮助学生和研究人员更有效地学习和研究。
一场关于大语言模型、提示学习在科研与产业界应用前景的深入探讨,揭示AI与科研和产业的新未来。
作者丨陈鹭伊
编辑丨岑峰
当在几年前GPT刚诞生、大模型尚未成为AI的主流方向的时候,一批科学家已经开始探索大语言模型在科研工作中的潜力。
这个方向的第一篇论文来自于生物信息学领域——早在上个世纪90年代生物信息学“数据大爆炸”时期,这个领域的研究者就开始尝试使用人工智能技术来助力科研工作,今天,他们再次成为了这一前沿方向的弄潮儿。
在过去几年中,大模型技术作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。在生物信息学、材料科学、药物发现等领域,大模型技术正在发挥着越来越重要的作用。
近期,美国密苏里大学电子工程和计算机科学系的校董讲座教授许东教授的一篇论文《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。该论文聚焦于大语言模型在生物信息学领域的应用。主要研究了如何利用大型语言模型(如ChatGPT)来挖掘基因关系,并提出了一种迭代提示优化技术来提高预测基因关系的准确性。
围绕生物信息学研究者使用ChatGPT改善工作流程、提高工作效率的新思路,雷峰网举办的「大语言模型与提示学习在科技研发中的应用与潜力」线上圆桌论坛,汇集了密苏里大学电子工程和计算机科学系的校董讲座教授许东、西弗吉尼亚大学微生物学、免疫学和细胞生物学系助理教授胡钢清、硅谷基金TSVC联合创始人夏淳、LifeMine 首席数据官于利华等行业专家。他们的见解覆盖了从基础理论研究到产业应用实践,为我们提供了一个全面而深入的视角,以洞察这一领域的最新发展和未来趋势。
许东教授强调了大语言模型在机器学习历史上的发展的四个阶段,即从特征工程、构架工程、再到目标工程,最后到提示工程。他还讨论了大模型在多模态研究、效率提升和新架构探索方面的应用,提出了大模型在数据安全和隐私保护方面的挑战,强调了大模型在教育领域的潜力,以及它如何帮助学生和研究人员更有效地学习和研究。
作为最早研究ChatGPT应用的学者之一,胡钢清教授讨论了大模型在科研方面特别是在生物信息学和医学信息学领域的应用,分享了大模型在跨领域应用中的潜力,如在医学案例中模拟多个专家角色的能力,强调了大模型在理解和生成准确回答方面的能力,以及如何通过优化提示语来提高其性能。
夏淳老师从投资角度分析了大模型的商业价值,包括在提高效率和创造新商业机会方面的潜力,讨论了大模型在金融科技领域的应用,特别是在客服和数据分析方面的潜力,提出了大模型可能对社会和职场产生的广泛影响,包括新的工作机会和对教育的变革。
于利华老师分享了大模型在生物制药领域特别是在药物发现和单细胞数据分析方面的应用,讨论了大模型如何帮助科学家和研究人员更有效地进行研究和发现,强调了大模型在数据安全和隐私保护方面的重要性,以及如何通过技术手段来解决这些挑战。
以下为本次圆桌对话全文,限于篇幅,AI科技评论进行了不改原意的编辑:
许东:
大家好,欢迎参加这个关于大语言模型与提示学习在科技研发中的应用潜力的论坛。首先感谢雷峰网、GAIR Live和AI科技评论提供的平台。我是许东,来自密苏里大学电子工程和计算机系,主要研究方向是生物信息学和人工智能。今天我们有四位嘉宾,两位来自学术界,两位来自业界。我和胡钢清教授都是做学术的,我们都是北大毕业的。胡老师目前在西弗吉尼亚大学微生物免疫学和细胞生物学系担任助理教授,他是最早研究ChatGPT应用的学者之一,ChatGPT在生信科研方面的第一篇论文就是他们组发的。我们的两位业界嘉宾都毕业于清华,首先是夏淳老师,他是硅谷基金TSVC的联合创始人。TSVC在美国非常有名,投资了许多像Zoom这样的公司,成功培育了9家独角兽公司。另一位是余利华老师,她是LifeMine的首席数据官,曾在多家生物制药公司担任高管,对大模型和机器学习非常关注。我们很高兴今天能邀请到四位嘉宾一起讨论这个主题。
我先抛砖引玉,简单介绍一下。首先,大模型是机器学习历史上一脉相承的发展。机器学习可以分为四个阶段:早期的机器学习,我们称之为特征工程,主要通过人工方式提取特征,如SVM或LightGBM等方法。第二阶段是构架工程,主要是经典的神经网络,如卷积神经网络,可以直接使用原始特征进行机器学习。第三阶段是目标工程,有大量预训练好的模型,如Bert等,人们用这些模型适应各种应用。第四阶段是提示工程,它建立在大模型之上,通过各种提示来操作大模型。大模型本身像一个黑箱,可以使用Zero-shot技术,即使不提供引导,它也能进行预测,或者提供少量例子,这些例子远不足以构成大规模训练样本。
如果用工业上的概念来比较,大模型就像电路一样,经历了电子管、晶体管、集成电路的发展,功能越来越强大;虽然我们只使用其中一小部分,但同样的芯片可以在多个地方应用。大模型至少有三个特点:它可以被提示,适用于各种下游任务,并且具有所谓的智能涌现,能够像人类一样进行推理。目前,大模型的研究非常活跃,包括多模态研究,如GPT-4o和谷歌的Gemini,它们可以使用多种语言、图像、视频等作为输入。另一方面,人们正在探讨如何使大模型更快速、更高效。目前,大模型主要基于Transformer架构,其效率与字长呈平方关系,字长较长时效率较低。现在有新的架构探索,如Mamba,它能够更快地处理,尽量使计算量与线性相关,可以处理多达100万个字节。最后,大语言模型本身就是一个操作系统,你可以在上面做很多事情。还有所谓的AI代理,我稍后会讲到。大模型可以使用各种输入,然后产生各种输出。大模型本身可以被视为一个黑箱,虽然黑箱早年时候常用来批评深度学习,但它实际上有很多优点。我们使用的手机就是一个黑箱,我们不知道里面的电子元件如何布局,我们只是与它的界面交流。大模型也是如此。这种交流就是所谓的提示工程,提示分为硬提示和软提示,硬提示如ChatGPT指定的对话,是单向的,不能修正;软提示则是可以学习的参数向量。提示学习大模型相比优化的微调模型有许多优势,尤其是微调模型可能会忘记之前的内容,这被称为灾难性遗忘。提示学习在这方面表现更好。因此,有了提示学习,你不再需要大量的数据、大型模型或强大的计算力,只需相对较小的数据、模型和算力,就可以进行各种应用。
例如这是胡钢清老师制作的一张图,可以看到大模型的应用范围非常广泛,从基因到教育、编程、图像理解、制药等领域都可以通过大模型来实现。我们使用的语言模型与一般人使用的有所不同。
一般人更多地将其视为聊天工具,而科研应用则更多地依赖于模型作为知识图谱和推理器
。例如,我们使用大模型来挖掘基因关系和生物路径等。
我们的工作发表在《International Journal of Artificial Intelligence and Robotics Research》上,我想推荐这个杂志,它鼓励发表跨学科的内容,这些内容非常前沿且交叉。因此,我们首先选择在这里发表。我们的研究利用了ChatGPT的推理能力,即如何优化提示语。我们发现ChatGPT可以自我优化。例如,在寻找基因关系时,我们首先设计一些提示语,然后在大数据上运行以查看结果。接着,我们更换提示语并再次运行,将每个提示语及其结果输入GPT中,让它进行优化。通过不断迭代,最终我们得到了非常有效的提示语。例如,我们将“生物心理学家”改为专门研究基因相互作用的分子生物学家,这种简单的修改就能显著提高知识挖掘的效率。我们之前只提到“激活”和“抑制”,他们添加了括号,如“基因1 activates 基因2”,虽然在我们看来这似乎多余,但这样的小改动确实让ChatGPT明白了我们的目的。这主要的作用是让它理解我们的意图,我们也使用了更复杂的方法来优化提示语。我第一次听说这种方法是听别人讲述大语言模型的黑客如何挖掘不应该挖掘的信息。他们使用了一种技术,即在提示语前加上一段乱码的ASCII代码,但大语言模型可以做Embedding,黑客利用这些来注入提示语,挖掘不应该挖掘的信息。当我听到这个方法时,我立刻想到,既然这种方法可以用来做坏事,那么它也应该可以用来做好事。因此,我们使用这种方法进行优化,以提高知识挖掘的效率。这种方法确实非常有效。大语言模型还可以理解图像,例如GPT-4v,你可以给它图像,它能理解其中的基因关系。比如这是胡钢清老师的一个工作,他们通过给GPT一些例子来训练它识别黑色素瘤图像,然后它就能判断给定的图像是来自正常人还是黑色素瘤患者。
大语言模型还可以做很多事情,比如蛋白质结构预测,这是通过将蛋白质转化为大模型可以理解的语言来实现的。蛋白质就像字符串,与语言类似,因此可以用语言的方法来处理。
大模型还可以用于单细胞数据分析,这也是一种语言。单细胞数据就是测量每个细胞中数万个基因的表达量,你可以想象每个细胞有数万个基因,就像一句话,如果有100万个细胞,那就是100万句话,大模型可以有效地分析这些数据。此外,大模型还可以用于材料设计,例如硅谷一家初创公司Automat Solutions,我给他们公司做顾问,他们的工作就是从大模型开始,自动搜索需求,比如电池配方,然后找到相关文章,进行数据采集,甚至设计电池配方。
材料科学也可以采用类似的方法。
目前,人工智能领域最受关注的是人工智能代理(AI Agents)。
如果问2024年人工智能技术中哪个最领先,那就是AI Agents。AI Agents的概念是模拟人类如何处理复杂任务。例如,进行数据分析时,人类需要使用多种工具并参考大量文件。AI Agent模拟人类执行这些任务的过程,可以自动进行,并根据需求和上下文智能地适应各种任务和模式。
目前,有两个著名的架构,一个是LangChain,另一个是CrewAI。我们使用这些方法在生物信息学领域取得了显著效果。我已经做了一个简单的概述,现在我们可以开始正式讨论。首先,我请几位嘉宾简要介绍自己以及为什么对这个话题感兴趣。胡老师,你先开始。
胡钢清:
谢谢许东老师的系统回顾和介绍。我是胡钢清,西弗吉尼亚大学免疫微生物和细胞生物学系的助理教授。从去年年初开始,我一直在关注并实践如何将GPT应用于生物信息学和医学信息学的创新应用。这是我目前非常关注的领域,也是我一直在做的工作,谢谢。
夏淳:
谢谢许东老师和雷峰网提供这个交流机会。我是夏淳,来自TSVC,这是一家硅谷的美元基金。我们从2010年成立,目标是投资并培育独角兽公司。我们在AI领域投资非常早,2011年就开始了,那时还没有大模型。现在,我们认为AI是一个重要的大趋势,就像当年的互联网一样。我们希望抓住这个机会,尽可能多地了解和学习。今天主要是来学习的。
于利华:
谢谢许教授和雷峰网。我是于利华,目前担任一家生物技术公司的首席数据官。我从事生物信息学工作20多年,一直在制药和生物技术公司工作。我的主要动力是发现新药来帮助病人。作为首席数据官,我的职业驱动力是如何利用数据和技术提高制药行业的效率,因为这是一个漫长、复杂且成本高昂的行业。
我认为,与工程领域相比,这个行业有很多技术和数据可以带来巨大变化。20多年的职业生涯中,我见证了每项新技术对行业的巨大影响。AI当然也不例外,我在清华读硕士时就接触了早期的AI,包括感知器,这是卷积神经网络的前身。从那时到现在,AI已经开始产生实际影响。像ChatGPT这样的大语言模型,如许东老师所介绍的,有广泛的应用。从我的角度来看,如何最大限度地发挥其应用潜力,提高我们工作的效率,是我关注的重点。我和夏老师一样,都是来向许东老师和胡教授学习的。
许东:
好的,我们已经讨论了一些大模型和实际应用的方法。胡老师,你能进一步介绍其他方法吗?
胡钢清:
许老师在您的介绍中已经很好地总结了提示学习的一些方法,例如角色提示,这是GPT早期需要指定角色的方法,而现在的GPT可能已经能够自我识别角色。还有Chain of Thoughts和Tree of Thoughts,以及一些常用的提示策略。当然,目前大家做得比较多的是上下文提示学习。用户会提供一段描述,AI会根据这个描述在特定的知识库中挖掘相应的上下文,然后将这些上下文与用户的提示结合在一起。大语言模型对这些信息进行综合分析,使其回应更加贴合用户提出的问题。
许东:
您说得对,特别是在retrieval-augmented generation(RAG)模式中,这种方法确实非常有用,因为它可以根据问题提取数据信息,并与大模型结合进行处理。现在,
提示工程已经成为一个高端职业领域。
很多人,甚至本科生,只要熟练掌握这些技术,就能获得20万美元这样很高的年薪,因为目前这类人才非常紧缺。提示学习的技术有几十种,我有时也会好奇地观看相关视频,了解各种奇特的技术。这个领域值得深入挖掘,因为应用越来越广泛。夏老师、于老师,你们有什么补充或想法吗?
于利华:
我对应用场景更感兴趣,所以对你们两位没有什么补充。
夏淳:
我一直在关注技术的变化,因为技术发展非常快。我们之前投资了一些项目,但OpenAI的出现让我们的投资受到了影响。所以,跟踪技术发展非常重要,它不仅影响科研,还涉及各行各业,为我们带来了许多新的投资机会。
许东:
确实,机会和挑战并存。通用的大模型如ChatGPT能够完成许多专业任务,这让很多人发现自己的工作已经被AI取代,而且做得更好。技术确实是日新月异,我每个月都能看到不同的新技术。
胡钢清:
不仅如此,GPT本身学习了很多东西,因为现在有多种大语言模型。对于我们感兴趣的新领域,以前领域间的壁垒很大,但有了GPT之后,这些壁垒变得更小。它使我们更容易进入一个全新的领域,比如我以前没做过的图像处理或诊断。现在我们可以更快地适应,不需要像以前那样花多年时间慢慢积累。这样,我们也能更快地了解新兴领域的发展。
许东:
对,所以我们自然地转入下一个话题,讨论大模型和提示学习的优劣势。胡老师,您先谈谈。
胡钢清:
我先简单谈谈。首先,传统的机器学习需要海量数据,通过深度学习或卷积神经网络,可以将精度提高到非常高的水平,比如图像诊断,甚至超过医生的诊断水平。有许多产品例如在放射学(Radiology)上实际上已经做到了这一点。第二,
传统的深度学习方法其精度非常高,但在医学领域,病人通常希望得到解释。
例如,如果告诉病人他们患有癌症,他们可能会问为什么。这是传统AI在解释方面需要突破的瓶颈。而GPT由于学习了大量信息,如果将其应用于新场景,并且提示语设计得巧妙,它可能只需要少量示例就能理解问题并给出满意的结果。这说明大语言模型在提示学习的基础上,对数据量的需求较低,这使得它能够解决一些罕见疾病的诊断问题,因为这些疾病的训练数据对于传统的深度学习或者其他AI方法来说是不够的,但GPT具有一定的可能性实现突破。第二点是GPT的可解释性,因为它能够像人一样进行对话,提供预测背后的解释。虽然这些解释不一定都正确,但可以作为第二意见的基础,医生可以据此进行交流和纠正。我提出这两点:数据量需求低和可解释性,所以GPT和传统的深度学习具有互补性。
许东:
您说得非常好,我想补充一下关于提示学习的内容。我们最近在一系列工作中使用了提示学习方法,包括单细胞数据分析、蛋白质分析和医学图像处理。提示学习的一个显著优势是它可以使用很少的数据来解决之前无法解决的问题。例如,在医学图像分析中,可能只需要10个或8个图像就足以做出判断。在蛋白质分析中,某些特殊问题的数据非常难以获得,比如信号肽,可能只有不到10个样本,过去这是不可能进行分析的,但现在可以使用提示学习来利用大模型解决这些问题。但我们发现这种模式也有局限性,数据的代表性非常重要。如果样本数量有限且分布有偏差,那么结果可能会出现问题,而且很难验证其准确性。
许东:
没有任何一种方法能够完全取代之前的方法,所以
在技术领域有一个所谓的“没有免费午餐”的定理,意味着在某方面有优势的同时,可能会在其他方面有所牺牲。
到目前为止,机器学习和深度学习仍然如此。
于利华:
作为工程师训练出身的,我多年来一直与生物学家合作,尤其是在生物信息学领域。很长一段时间,我认为生物学缺乏工程领域那种简洁统一的数学语言,而是依赖于大量的知识积累。这使得该领域的高质量和可重复性一直比较困难。但我认为大模型的出现,无论是大语言模型还是多模态模型,都有可能成为生物学的数学语言。我们很难想象生物学有一个简单的数学表达,但大模型可以将蛋白质、基因和其他信息整合在一起,为我们提供一个统一的框架来理解生物学问题,这对工作有很大的帮助,可能是生物学领域的一个飞跃。从这个角度来看,大模型的应用场景非常广泛。
胡钢清 :
同一个问题的回答,它每一次都可能会不一样,这是因为它是一个概率问题,它给出正确结果的可能性有多大。例如,我设计了一套提示语,得到正确结果的概率可能是0.9,但模型更新后可能变成0.8或0.95。这种不一致性和不稳定性是需要注意的。许东老师你以前跟我提到一个Ensemble Learning。
许东:
这个中文叫集成学习,物理翻译叫系综,即结合多个模型来整合推理,确实能够提高稳定性。但我想补充的是,生物学中的发现,这种自由性实际上有助于建立新的假设。例如,大模型有时会产生幻觉,这在计算中被称为假阳性,是常见的现象。但有人提出,
如果完全消除这种幻觉,模型就没有创造性了。
所以,要让它有创造性,就得允许它犯错误,允许它有天马行空的想法。这两者并不是要完全消除,而是要找到最佳平衡。
于利华:
这跟人一样,需要创造力,有时需要突破已知的边界,去天马行空。
许东:
于老师刚才提到的另一点我觉得很好,就是大模型能够进行跨界假设。大语言模型做了一件过去人类历史上没有过的事情,就是universal embedding,即将不同领域的知识投影到同一个空间里,在这个空间里知识之间的关系变得非常明显,不像在真实世界中那么复杂。这是通过学习过程达到的,然后能有效做很多事情。所以我认为这是大模型非常厉害的地方,它在某种程度上能够做到一点通吃。
夏淳:
我也有同感。我觉得最令人兴奋的是,
大语言模型就像一个人读了1000个不同领域的PhD,然后自己内部融会贯通。
我比较感兴趣的是,有没有这样的项目能够驾驭这件事,引导它综合不同学科,产生一些特别有意思的新学科或新发现。尤其在生成方面,无论是在科研上还是其他领域,都会跟过去完全不同。我举一个例子,我们在研发,同时有一个专家在做生产制造的可行性分析,还有一个财务专家在进行财务分析,甚至在金融方面考虑对股市的影响。这些本来是完全不同领域的工作,大语言模型却能同时进行,这是非常令人兴奋的。
于利华:
夏老师这点讲得非常好。我们生信领域相当于早期跨学科的努力,能够把计算和生物结合起来。我自己在制药领域带团队,一直很关注如何在学术界训练我们需要的人才。我发现最有效的人才是那些能够触类旁通的人。所以我觉得夏老师这点讲得非常好,就是最有效的人才实际上是能够把跨学科的东西结合得最好的。大语言模型已经具备这个能力,我们如何挖掘这个能力是一个关键问题。
夏淳:
对,当然我们也希望许教授、胡教授能够研究,比如通过Agent,让它能够自主地在这方面拓展。一方面我们通过提示词引导它,激发它跨学科的能力,把一个问题拓展得很宽泛。当然,我相信AI本身也可以进行这样的操作。这样一来,我们就离AGI(人工通用智能)更近了,或者说更厉害的AGI可能就会出现。
胡钢清:
回应夏老师刚才提到的,GPT这个大语言模型是跨领域的。最近我和许老师开发了一个挖掘GPT潜能的工作。我们发现了一个非常有意思的现象:在同一个对话中,GPT能够扮演多个角色。我们把它应用到一个医学案例中,比如一个病人来到诊所,描述了他的症状,最后问了一个简单的问题:病人缺少哪种维生素?这实际上是考美国医学职业执照的题目,是一个非常具有挑战性的问题。
我们发现,要回答这个问题,需要综合皮肤科、消化科和营养师三方面的知识。我们让GPT模拟三个专家的讨论,然后给出答案。我们发现,如果我们让GPT只模仿其中一个专家,它回答正确的可能性大约是50%。但如果让它同时模仿这三个专家进行讨论,然后给出答案,它回答正确的可能性就提高到了80%。
许东:
补充一下,
大语言模型实际上正在朝两个方向发展。一个是刚才提到的1000个博士的方向,即向广度发展。现在还有另一种模型是向深度发展,有人称之为小语言模型,它非常专业。
例如,可能有一个专门针对某个领域的模型,它的训练数据都是教科书级别的,而不是像现在的大语言模型那样使用网上的各种数据。这种模型可以非常深入地发展。我最近听朋友讲回国吃饭时,饭馆根据客人讨论的方向提供服务。如果有一个更好的语言模型,可能就能做得更好。虽然现有的方式很好,但模型写的宋词可能稍显俗气。如果模型训练得更深入,就可能接近苏轼等大家的水准。所以,另一种模式是小而深的模式。
夏淳:
这个话题特别值得探讨,因为从投资和创业的角度来看,这样的机会更多。我们投过一些模型做得很小的项目,比如7B这种小一点的,它做得很专,比如成为最专业的Security专家,比过去的Security product都要厉害的新一代产品。我们也投过一个叫Aizip的公司,它专注于做小模型,甚至微小模型,这种模型可能7B都嫌大,它会做到小到多少个Megabyte就可以放得下,这样它的影响就是首先它能做得很便宜,可以用在成本很低的单片机上,让很多设备具有AI能力,应用范围就非常广泛,尤其是在物联网领域能干很多事。此外,它的能耗非常小,这对于现在运行大模型时能源消耗很大的问题来说,是一个很大的优势。所以,大模型有大模型的优势,小模型有小模型的优势,综合在一起,可能通过Agent将它们串联起来,我个人觉得这可能比AGI的概念更加令人兴奋。
许东:
非常好。接下来的话题是各行各业的实际应用案例。夏老师已经给出了一个很好的例子,看看大家是否有更多有趣或有启发性的例子,无论是在生物医学还是其他领域,比如工程方面的应用,能否进一步分享?
夏淳:
我先来分享一个。我觉得特别有意思的是许教授参与指导的Automat Solutions的案例,这是我们较早投资的AI项目之一,应用于电池电解液材料研发。从我们的分析来看,它在研发效率上提高了100倍,主要是因为它处理的是配方问题,化学配方的搜索空间非常大。如果使用传统的实验方法,可能需要很长时间才能找到合适的配方。所以,我们当时请教了许教授,是如何利用AI手段,包括强化学习等,处理小数据集的问题,并预测和生成新的配方。
夏淳:
另一个重要的点是,它必须是一个闭环系统,需要有高通量的实验室自动化能力。有了实验室机器人和自动化系统,形成了闭环系统后,我们发现这样的研发效率比人工高出100倍,这是非常令人兴奋的。
夏淳:
我们还投资了一个类似的项目,是关于氢能源催化剂的合成,可以用AI来合成新的配方,替代稀有金属。
许东:
夏老师提到的这些例子非常好。我也很喜欢automat这个公司,他们使用AI的方式非常成功。我参与其中的最大体会是,更多的商机可能在于深入的落地应用,而不是通用模型。通用模型虽然重要,但这个领域的竞争太激烈了。
许东:
我们经常听说有数百个模型在竞争,但最终能存活的并不多,因为就像芯片一样,不需要很多人来做,一个模型就可以满足需求。但各行各业都有很多机会,我认为automat的例子表明,
要让AI或大模型成功落地,需要三方面的人才:一方面是电池本身(专业领域)的专家,另一方面是高通量技术的专家,第三方面是人工智能的专家。
只有三者结合起来,才能做得好。而AI本身在科研上,需要这些技术和领域知识的结合,比如生物技术和人工智能的结合,我觉得只有这样才能走得更深。
胡钢清:
我同意许老师和夏老师的观点。在生物信息学的应用中,早期最拥挤的两个赛道是文本挖掘和药物发现。文本挖掘的能力非常强,可以挖掘基因间的关系,比如许东老师的工作。在药物发现方面,也有很多应用,比如食物、药物和疾病的关联,药物间的相互作用,或优化小分子和药物。这些都是早期做得比较多的领域,现在仍然在做,而且越来越深入。
许东:
这些都是很好的例子。接下来我们讨论下一个话题,即大模型和提示学习中的数据安全和隐私保护问题。可能很多人已经注意到,如果你上传的数据,比如公司保密数据或病人隐私数据,被大模型用来学习,这不仅是大语言公司(如OpenAI)可能知道这些数据,其他人也可能挖掘出来。大约一年多前,三星公司的高管使用ChatGPT提问时上传了公司的一些数据,这些数据可能被挖掘出来,即使与公司无关,但通过特定的提示语可以挖掘出这些数据。这就面临了很多数据安全和隐私保护的问题。胡老师在这方面做了一些工作,胡老师能否分享一下。
胡钢清:
我做的工作相对浅显,但我认为数据安全实际上有两个方面。第一方面是用户数据,用户担心数据上传后,大语言模型界面已经明确告知不会用数据训练。我们假设它不会用于训练,但你不知道数据上传后是否会被挖掘出来。从开发者的角度来看,比如我们基于大语言模型加上自己的知识库,这是我们投入巨大努力获得的,我们不希望别人知道。但大语言模型很多是基于提示语的,提示语是一个非常强大的工具,如果使用得当,可能挖掘出这些知识库。所以对于开发者来说,他们也非常关心数据安全问题。这就像杀毒软件和反病毒文件一样,总是一个迭代过程。对于大语言模型,我也做一个类比,它也有杀毒和反杀毒的问题。
夏淳:
我也介绍一下,我们最近看到的一些有趣的项目,我们最近看到一个专注于安全的项目。他们非常关注我们今天讨论的提示词问题,因为现在他们专门研究如何使用提示词进行攻击。除了挖掘出你原来的学习数据,它还可能在一定程度上破坏你原来的训练模型,产生恶意结果。所以这些事情已经有人在研究了,作为攻防,也要设法防范。据他们讲,现在多多少少还是修修补补,还是有一些办法在一定程度上控制,至少能够报警。但这个市场实际上非常动态,因为模型本身一个月一个样,变化很快,原来的一些安全漏洞可能过一段时间就不存在了,或者又出现了新的。用户使用的情况也是千差万别,因为比如他们使用了RAG,添加了很多内容,实际上又带来了很多新的安全风险。这些边界变得非常模糊,所以可以看到它是一个非常动态和动荡的市场,基本上是这么个情况。
许东:
对,
这与过去的网络安全非常相似,是一个不断攻防的过程。
在网络安全领域,有所谓的红队和蓝队,不断进行网上的竞争。大模型的引入也是如此,现在利用大模型进行恶意操作的人也越来越多。例如,最简单的情况,可以注入观点或影响投票等,这些都是可能的。这虽然与科研关系不大,但科研中最关注的是知识产权可能会丢失。例如,使用ChatGPT时,数据可能会被用于学习,而其他人也可能挖掘这些数据。现在ChatGPT提供了本地版,可以在内网中使用,这样所有数据都不会外泄。这当然是一种相对保险的方式,至少不会丢失数据。但一般的应用程序确实还面临着隐私等问题。例如,现在医院不太愿意使用ChatGPT,因为病人的数据上传到ChatGPT后,无法保证隐私安全。这些可能都是需要进一步研究的问题。于老师,您有什么补充吗?
于利华:
我没有补充,只有一个问题。我不知道我们的讨论是否有点像早期云计算刚出现时的情况。以前大家都有自己的服务器和存储,依靠IT部门的安防能力。当大家开始进入云计算时,很多人担心这不安全,数据不在防火墙后面。但后来,随着云计算成为主流,安全责任转移到了云服务公司,由他们来保证我们的安全。所以我也认为,大语言模型可能也是这样,几乎不可能不使用大语言模型。那么对于安全和隐私的保护,是否会在更高层次上不断提高,而不仅仅是依靠个人不传输敏感数据。云服务公司可能会开始提供一定级别的安防能力。
夏淳:
我相信这一定是一个发展路径。另外,现在一些小模型也出现了,边缘计算用的硬件也越来越便宜,可以运行一些不太大的模型,所以完全可以在本地使用私有模型,这也在一定程度上缓解了安全问题。
许东:
对,我也说两句。我认为大公司,如OpenAI,其实做了很多工作。例如,早年用于挖掘知识的提示语,现在不太好用了,因为OpenAI已经拦截了很多这种攻击,所以它有一定的安全性。当然,正如我刚才所说,黑客使用的这些技术有时确实是创意性很强,例如,他们可能通过乱码来扰动模型,使其吐出有用的东西。这些东西确实非常神奇,我不知道他们是怎么想到的,但从某种意义上说,这有点创新。但一旦这种创新被发现,就会有防御手段,所以会不断迭代。
胡钢清:
我想说,
大语言模型的攻防可能与过去网络杀毒软件开发的情况有所不同。
如果你要编写黑客代码,首先需要知道如何编程,甚至需要了解汇编语言。但
在大语言模型中,提示语可能降低了门槛。反过来说,做大语言模型的防范或数据安全可能比传统的杀毒软件更具挑战性。
有时就像许老师说的,用一段乱码,可能就不知道怎么想到的。或者一个非常诡异的句子,就能够从你的后台挖掘出你辛苦构建的提示语,确实有这样的例子。
许东:
理论上讲,大模型的参数特别多,意味着它的容量特别大,所以你训练的数据几乎都能够原封不动地挖掘出来。这与过去的机器学习模型不同,训练完成后,你无法还原训练数据。而大模型很可能会还原大部分数据,所以训练的数据就面临这个问题,因此相对来说比较严峻,比传统的机器学习更具挑战性。
许东:
我们接下来讨论下一个问题,关于商业方面的问题,主要是想听听夏老师和于老师的看法。首先,关于大模型在商业方面的应用,无论是科研还是商业价值创造,我们听到了不同的说法。一种说法是,像AI Agent这样的大模型在全球500强公司已经广泛应用,大大提高了效率。当然,也有人认为AI看起来炫目,但实际上创造的价值并不多,更多是表面光鲜。我想听听夏老师和于老师对这个问题的看法。
夏淳:
我对这个问题很感兴趣,我也一直在思考我们有什么好的投资机会。所以首先,我认为现在还没有达到大家预期,是因为存在很大的AI泡沫,有些过度炒作。炒作的特点是大家都在过度承诺,总觉得智能已经发展到不得了,甚至要毁灭人类,这太夸张了。我认为这些都是无稽之谈。所以很多预期超出了现实,或者说与现实不匹配,只能说我们现在的实践还没有做好,但将来一定会非常有用。
我们认真思考过,它会创造什么样的商业价值,是什么样的路径。在这条路径上,我们等待它就可以了,看它如何变现。第一波,我们看技术发展的历史,第一波几乎都是提高生产力,先是做工具的。很明显,我们现在使用ChatGPT也是为了帮助写稿子、纠正英文的错别字和语法错误,这是很直接的利用。
第二波,我认为是现在正在做的,我们看到很多公司正在做的就是Copilot。现在还没有能力完全替代人,但在垂直领域里可以训练一个特别精准、高质量的模型,然后做成Copilot。当然,我们已经看到写代码的例子,能做的还有很多。我们也可以理解,这种Copilot可以用于所谓的嵌入式智能,与机器人结合在一起,那也是蛮神奇的,但它并不是智能到可以完全取代人。
这是一类,我们认为这是第二阶段的事情。第三阶段是Agent已经用得比较好,那么实际上它已经达到相当多的智能,不仅仅是一个模型在起作用,可能是多个模型通过Agent组织得比较好,这样针对一类问题的自动化和智能化程度就比较高。
比如现在发展比较快的,大家做得比较用心的,就是售后服务、客服,即CRM领域。这个领域资金多,从业人员多,发展就会比较快。你自己可能也有体验,比如与保险公司或医院打交道,就会发现这方面的智能提升得特别快,因为它把很多能力都聚合在一起。
我们也看到一些我们投资的机器人项目,比如在农业方面的应用,它也是把综合的智能能力放在一起。从商业价值来讲,它真的就价值很大,很容易赚钱,因为它在很大程度上开始替代人力,解决劳动力短缺问题,尤其是那些不太好招人的工作。但有一点要注意,往往那些体力活、蓝领工作,其实难度比我们想象的要大很多,反而是白领工作,包括科研、PhD等,可能更容易被AI替代。
我们预测,接下来的第四阶段或第五阶段,就是它从工具逐渐演化,这是一个演化过程,最终演化成一种新的生态。
因为有那么多的智能体,它们能做的事情很多,这些事情超出了我们今天的想象。至于它们会做出什么,比如在科研上会有什么成果,我们现在无法预知,我们只能通过历史来回答。我喜欢引用印刷术的历史,比如在西方,古腾堡发明了印刷机,他首先用来印刷圣经,这个技术的发展促进了新教的兴起。一开始,印刷机作为效率工具,替代了教堂里抄写圣经的神父,使得圣经能够大规模印刷。但我们谈论的最终范式,即范式发展最终形成新的生态,是没有人预料到的,比如报业、媒体和新闻行业。
一开始,人们没有想到这些,但我们没有预料到的是,比如报业,我们去过赫斯特城堡,看到他的财富,他通过报纸行业积累了巨大的财富和影响力。这些事情对社会的影响是深远的。我们今天可能看不到,但可以推测和推演,这些恰恰是最激动人心的。包括我们今天讨论的科技,一旦AI在科研中发挥作用,未来的科研会是什么样子,有很大的想象空间。我们也预期这样的生态的产生,它将对科研圈子、文化产生颠覆性的影响。
于利华:
我想接着夏老师的话说,首先,
我认为现在的大语言模型和AI实际上有点像基础设施,比如电、互联网、云计算。
虽然它们最初可能只有有限的应用,但因为它们是基础设施,我们无法完全想象在它们之上能构建出什么。对于科研的影响,现在还为时尚早,但我可以分享一些我们的亲身体会。
在生物信息学领域,我觉得现在的AI和大语言模型有点像深度测序刚出现时,大多数人还在使用微阵列技术进行基因表达分析。当时,人们不确定是否应该进行深度测序,因为它既昂贵又缺乏分析人才。但显然在几年后,这不再是问题,深度测序的速度、精度和人才的普及使得它成为非常基础的技术,并对生物医学和制药领域产生了巨大影响。
所以我认为,大语言模型在我们的领域落地更像是在深度测序的早期,有人开始使用,有人犹豫不决,有人甚至认为它可能不是真正需要的技术,但我认为它的影响一定会越来越大。
具体来说,我们自己的例子,因为我的团队是数据科学家,我们都知道,一般数据科学家很大的一部分的工作是清洗和对齐数据,数据对齐后才可以做分析。那么我认为,有了像Copilot这样的工具,包括直接使用ChatGPT,很多基础工作可以用很少的努力完成。那些有洞察力的人,知道如何使用、解释、理解并将其转化为知识和下一步行动的工作将更有价值。我认为这将对行业产生很大影响,绝对会极大提高效率。谁用得好,哪个组织能够真正将其结合到内部工作中,我认为将会产生很大的价值。
许东:
你们说得都非常好,我觉得两点很重要。首先,最终的影响可能是我们无法想象的,因为AI仍处于爆发期,还没有看到它逐渐变冷,而是在持续发展。所以它最终的影响可能是我们现在无法想象的。第二点是,影响的过程可能是曲折的,而不是直线的。过去的技术发展也是如此,比如云计算。我知道最早的云计算概念实际上是Oracle提出的,他们认为你不需要在笔记本上安装任何东西,一切都可以在云端完成。但当时这个概念差点让公司破产,因为当时的基础设施不匹配,而且这个想法可能太超前了。所以我认为AI的长期影响绝对是巨大的。
但这个过程可能是曲折的,在这个过程中,可能很多公司或个人不仅没有受益,反而成了先烈。现在一些上市的AI公司,尤其是生物领域的,有些都快破产了。这是一个曲折的过程,但我认为最终会有巨大的正面影响。我们可以讨论下一个话题,即大模型对职场的冲击。我们听到了一些说法,比如编程人员的冲击,原来可能需要100个人编写程序,现在可能20个人加上AI就足够了。这在编程领域非常明显,包括现在计算机专业的学生找工作也比往年难多了。
大模型可能也会冲击其他领域,比如刚才提到的简单数据分析师,如果只是做数据清洗或简单的数据工作,包括统计工作,这些人可能都会受到一定的冲击。那么在职场上,比如做大数据的人,如何适应这种情况,或者如何转型和应对?不知道大家有什么想法。
于利华:
我对我的团队的指导一直是,
一定要把自己的价值建立在从数据中挖掘出知识和洞察,并将其转化为行动,而不仅仅是编程或计算。
这是至少从比较简单的层面上的指导。但如果从整个行业或不同行业来看,那些只走量不走心的工作将会越来越少。
夏淳:
于老师这么讲我觉得很精准,走量不走心。因为走量的事情,AI做得比人好太多。
于利华:
还不出错。
夏淳:
未来对人的技能要求将会不同。我们也讨论过教育的影响,大学甚至需要重新定义,很多老师可能不再需要,用AI做老师可能比现在的老师教得还要好。这些问题都很有趣。我们还在探讨它会产生一种新的生态或新的范式,整个世界都会改变。这种变化将带来更多的机会,尤其是对年轻人来说,他们需要敏锐地捕捉到这些变化。一旦变化发生,职场上就会出现很多新的职位。
夏淳:
作为投资者,我们密切关注这一领域,看看有什么新的东西出现。因为很多东西在影响巨大后,它的市场体量就摆在那了,可能市值达到数十亿甚至数百亿美元。这些都是我们关注的机会。当然,要确切地说会出现什么东西是很难的,除非我们能穿越时空。我们很难画出未来的路径,例如我们经历过互联网的发展,回到1993年在UIUC使用Mosaic,那时世界上只有三个网站,当时我们很难想象未来的互联网会发展成什么样子,包括现在的社交媒体等。所以,我们只能紧跟潮流,捕捉每一个变化中的机会。
许东:
你举的例子非常好,我当时就在那栋楼里。Beckman Institute五楼就是做这个的,当时他们做了第一个浏览器MOSAIC,刚做好就马上给我们楼里的人用,所以我是全世界最早接触这个浏览器的几十个人之一。我当时就觉得这个东西很好,但没有想到它会有这么大的影响。我当时想,这个东西很好,我们以后做科研,大家传数据或者展示科研成果会很方便,但没有想到它会带来整个行业的天翻地覆的变化,包括现在的社交媒体等,完全没有想到。所以我认为现在可能也是这种情况,虽然已经有很多应用了,但可能还有很多我们没有想到的应用。
夏淳:
基本上我认为局面就是这样,我们经历了几轮历史重复。现在我们只是看到了冰山一角,只是一些工具层面的东西。我个人认为,更感兴趣的是社会层面的变革,这将更有意思。因为AI太智能了,很多事情都能计算得非常清楚,包括战争,现在都不需要真人参与,全是机器在操作。这种格局的变化对社会的影响是巨大的。
于利华:
另一个社会变革的角度是,大模型或AI能创造出什么样的崭新工作机会。当解放出这么多白领工作时,可能会对社会生态产生巨大变化,这些变化可能与大模型无关,但却是全新的领域。
夏淳:
对于职场的影响,可能我们听众中有很多年轻人在考虑这样的问题。于老师也提到,不要只把自己定位在工具人上,而应该更多地走心。我比较主张更多地关注文科,因为未来能够驾驭AI的,可能更多是具有良好文科基础的人。当然,我指的文科是非常深入的,比如社会学、人类学,最好能深入学习哲学。今天看哲学似乎没什么用,但未来可能你会用哲学与AI进行交流。
于利华:
所以夏老师您的意思是,未来的大学或研究生教育将回归最初大学教育的目的,即博雅教育,而不是职业训练?
夏淳 :
对,是这样。因为
职业训练可能有点像科幻电影《黑客帝国》里的场景,你可以通过下载来掌握技能,这不是难题。
于利华:
对,当年大学或学院的建立目的,是为了训练社会领袖,进行博雅教育,而不是职业训练。
夏淳:
对于老师这么描述非常好,我认为人类社会的发展可能会朝这个方向走。我们经历了工业革命的几轮变化,从机械到电气,再到电子,再到互联网和AI。这个过程非常清晰。我有一个坚定的观点,真正的进步是技术进步,技术是实实在在的,它带来了过去没有的东西,然后直接影响社会。有趣的是,作为个体,我们如何定位自己?
胡钢清:
我想补充一点,听众中可能有些计算机或理工科的学生,可能会问,既然AI编程这么好,我还要不要学编程?我认为学编程仍然非常重要,有两个原因。第一,编程训练思维,如何思考,这有助于你更好地理解大语言模型背后的思维。第二,如果我们完全依赖机器来编程,那么最优秀的那些程序可能都是由懂编程的人编写的。我的实验室有一个例子,我让我的一个研究生帮我实现一个迭代算法,他已经有编程基础了。我告诉他算法,给了他一个调试时间。上午说完,中午他就给我结果了。我问他怎么这么快,他告诉我他是用GPT写了一个框架,然后在此基础上修改的。如果这个学生不懂编程,可能需要一两周才能拿出结果,但现在他半天就完成了。所以,编程一方面可以训练思维,另一方面可以更好地与大语言模型AI协作。
夏淳:
在胡教授的基础上,我再发挥一下。可能胡教授的意思是,如果你只是泛泛地学一点编程,会几种语言,想靠这个混饭吃,以后可能就不好混了。所以你需要精通,需要深入理解。我们都是学这个的,知道需要学习一些课程,比如编译原理,甚至它背后的数学原理,以及编程语言的历史和设计思想。掌握到一定程度后,你会感觉自己开始向大师级方向发展。在这种情况下,你使用AI工具的层次就比较高了,至少你可以和AI对话。否则,AI做出的东西你都看不明白。
许东:
是的,从教育学角度来看,
AI确实对一些职业产生了很大冲击,但同时也产生了许多新的行业机会。
从教育角度来说,我们如何培养人去把握这些机会,或者一些听众,比如学生,如何准备自己,能在这种浪潮中成为成功者。这与以前不一样,比如我们要培养交叉学科人才,比如生物信息学领域,需要学计算机、统计、机器学习、生物学等。但有了大模型后,你不一定非要每个领域都学几门课,因为大模型本身就能教你很多东西。所以,现在的人才培养可能与过去不同,不一定非要一样的模式。
过去需要在所有学科上打好基础,但现在更多的是你能如何思考问题,就像于老师讲的,不一定要走量,要走心,真正能够善于发现问题、思考问题和解决问题的能力。在大模型时代,这可能与过去的教育方式有所不同。所以,我在想这些事情,当然也没有很好的答案,看看大家有什么进一步的想法。
夏淳:
我刚才已经说了,多学一些文科的东西。因为文科东西应该说是大模型的短板。你不要以为大模型现在能够写诗、画画,跟人还是不一样的。人有很多灵感型的东西,这些是无法用语言表达的,大模型无法学习,因为它需要一个token stream,需要一个语言过程。所以,文科内容给我们留下了巨大的空间。