2024年5月3日下午,在北京大学迎来辉煌建校126周年之际,一场汇聚人工智能领域顶尖智慧和力量的盛会——
北京大学人工智能产业峰会暨校友“人工智能+”论坛
,在北京大学博雅酒店隆重举行。此次峰会不仅是对北京大学深厚学术底蕴的展
示,更是对未来人工智能技术和“人工智能+”产业发展趋势的深入探讨
和展望。
本次盛会由
北京大学校友会
、
信息科学技术学院
联袂主办,
北京大学武汉人工智能研究院、北京大学校友青年CEO俱乐部、未名科创、“人工智能+”研习社
承办。
北京大学科技开发部、北京大学创新创业学院、北京大学王选计算机研究所、上海人工智能研究院、创客总部、创业公社
联合支持,
北大法宝
大力支持。
北京大学王选计算机研究所研究员
、
博士
生导师
、
国务院
特殊
津
贴获得者赵东岩
出席此次论坛并围绕大规模预训练语言模型的发展及应用前景做了精彩演讲,以下为演讲内容整理:
大家好,非常高兴有机会与各位校友分享,感谢校友会和新科学院的邀请。人工智能是一个广泛的话题,我主要研究自然语言处理。今天,我将简要分享大规模预训练语言模型(LLM)的相关内容,希望对大家有所帮助。由于时间有限,我将重点介绍三个部分:大规模预训练语言模型的起源、能力分析,以及应用前景。
众所周知,人工智能经历了三次浪潮。在前两次浪潮中,虽然连接主义流派并未占据主导地位,但已经产生了重要的研究成果,包括神经网络和早期的语言模型。例如,1957年诞生了第一个神经网络模型Perceptron,1982年提出了Hopfield网络。
1986年,数据算法的提出使得大规模神经网络训练成为可能。但在第三次浪潮的早期,人工智能的发展并不以神经网络为代表。直到后来,出现了几个标志性事件,如1997年深蓝战胜卡斯帕罗夫,这标志着计算机在计算能力上超越了人类。
2016年,AlphaGo战胜李世石,以及深度神经网络(DNN)在语音识别和卷积神经网络(CNN)在图像识别上的成功,表明计算机在感知智能方面达到了高水平。2017年,中国发布了新一代人工智能发展规划,这是国家在人工智能领域的重要产业前瞻性规划。
深度学习模型结合transformer架构后,Google在2018年推出了BERT模型,而OpenAI在2022年发布了ChatGPT。尽管ChatGPT的发布引起了广泛关注,但对于从事自然语言处理研究的学者来说,Google推出BERT模型时的震撼要远远超过ChatGPT。
要让计算机理解语言,首先需要用0和1这样的代码来表示语言,尽可能精确合理地表述语言。传统自然语言处理在表示语言时使用的是独热编码(one-hot encoding),类似于古代的结绳记事。它使用一个高维向量,每个位置代表一个单词。例如,如果有5万个汉语单词,就会有一个5万维的向量,每个单词出现时,相应位置就标记为1。但独热编码的一个缺点是不能表示单词之间的语义相似性。
预训练模型是一种语义表示方法,大规模语言模型在发展过程中有三个重要突破:词向量表示、上下文相关性,以及模型结构的改进。
Google在2013年提出的模型基于这样一个假设:如果两个词在它们周围出现的词很相似,那么这两个词本身也相似。这种基于上下文的词表示方法,通过神经网络架构的精心设计和训练,为自然语言处理领域带来了重要进步。
大模型的快速发展得益于基础研究的深入。从研究谱系上看,预训练方法基于无监督学习,基于大规模神经网络。它的研究从上下文独立的分布式表示,发展到大规模无标注文本的语言模型。2018年ELMo和GPT之后,出现了更多专业性的语言模型,如针对特定任务的、基于外部知识融合的、跨语言的和跨模态的模型。
在短短四年内,模型从亿级发展到万亿级,这虽然是一个夸张的说法,但模型规模的增加确实带来了计算开销和训练成本的增加。因此,轻量化预训练语言模型成为另一个重要研究方向。
所谓轻量化,是指将模型压缩10到100倍,同时保持与原模型相当的性能。一个完整的预训练模型的统计研究过程涉及多个研究方向,包括改进Transformer结构和预训练目标。
现在常用的方法还包括利用下游任务创新,例如3Q或Promotion等模式,以及提高计算效率和模型轻量化。
另外两个重要方面是多元数据增强和训练方法的改进。ChatGPT之所以能比GPT-3有显著提升,主要是因为训练方法的改进。
从GPT-3到ChatGPT,参数规模保持一致,即在基座模型训练过程中,数据性能有了大幅提高,主要采用了基于人类反馈的强化学习训练方法。
这里有一个重要概念:对齐(Alignment)。它涉及将监督学习接口与两个模型以及其他学习方式结合起来。在特定约束下,大模型能够生成高质量的回复。
下面,我将简要分析大规模语言模型的能力,以及它为何如此受欢迎。首先,它的对话能力有了显著提升。
实际上,在ChatGPT之前,我们已经有多个人机对话系统,但ChatGPT在质量和逻辑性等多个维度上都有了明显提升。同时,它还能根据上下文进行自主学习。我认为这个学习过程既是优势也是劣势。
如果没有专门的训练,ChatGPT的翻译性能可能不如谷歌翻译。通过比较,我们可以看到,在高资源语种上,ChatGPT和谷歌翻译的能力相近,但在低资源语种上,差距非常明显。同样,在文本摘要和信息抽取方面也存在类似问题。
尽管ChatGPT使用了大量数据,但在特定自然语言处理任务上,它的性能可能不如经过专门训练的较小规模模型。这是一个重要发现:大模型虽然具有通用能力,但在专业能力上并不突出。
首先,ChatGPT缺乏特定知识。尽管它在通用知识方面表现出色,但缺乏特定知识,有时会导致“一本正经胡说八道”的现象。这是因为深度神经网络模型中没有专门的结构来存储知识,它无法基于特定领域的知识提炼相应的理论知识。这也是为什么ChatGPT和GPT-4在基本算术题上表现不佳的原因,因为模型结构中没有加减乘除的规则。
大规模语言模型是一个黑盒,缺乏可解释性,这是ChatGPT的另一个重要缺陷。模型越大,参数越多,不可解释性和不可控性也随之增加。这就是为什么大模型看似能够达到不错的水平,但要实现在特定行业领域中100%或99%正确回答问题仍然具有挑战性。原因在于其推理过程不可控,尽管可以提供一些背景知识提示,但答案仍然是不可控的。
第三,强大的对齐能力可以解决大模型的一个重要问题。例如,GPT-3和其他语言模型可能会被用户简单地用一些技巧引导,说出难以理解的话。通过对齐,这种现象可以大大减少,甚至基本消除。
然而,采用对齐也带来了一些负面影响,即其价值倾向性被显著强化,导致价值趋同现象。以特朗普和拜登为例,如果要求生成一篇歌颂性的短文,模型可能倾向于生成关于拜登而非特朗普的内容,这反映了其主观价值倾向性,无法全面展现和平衡多种观点。例如,在中美气球事件中,如果仅基于国籍或立场判断是否应击落气球,这在法律上显然是不合理的。我们应该引用不同的法律条文,理性分析一个气球飞越主权国家时,在何种情况下可以击落,以体现客观和公正。
此外,模型还面临缺乏灵活的角色适应能力和自我感知能力的挑战。模型无法区分不同的用户,无法像高级销售人员那样根据用户的年龄、性别或其他特征采用不同的沟通策略。这限制了模型在与用户交互时的个性化体验。
现在,让我们看看GPT-4的改进之处。首先,它在多模态理解能力方面有了显著提升,能够更好地处理和理解不同形式的信息。其次,ChatGPT在生成内容时展现出了更高的抽象化能力,使得生成结果更加准确和深入。最后,GPT-4还具备了路径和空间的认知能力,例如,通过问答了解一个家庭的布局后,它能够准确地绘制出该家庭的布局图,这体现了其强大的空间认知能力。
"通路"这一概念指的是在边与边之间、节点与节点之间通过连线形成的连接路径。除了这一概念,ChatGPT和GPT-4等模型还展现出了另一个至关重要的能力,即任务规划能力。
我们认为这种规划能力源于模型对代码的阅读、学习和生成能力。这使得当模型自身无法直接完成任务时,它能够调用相应的专业模块来执行特定任务。这种能力对于大模型扩展到各个行业领域尤为重要。与对话、回复和生成等能力相比,任务规划能力更被视为推动通用人工智能发展的关键技术。
在总结这一批大模型的发展时,我们可以看到它们的发展里程碑对推动AI领域具有重要意义。大模型是通用人工智能的有益尝试,但它既非重点、也非唯一或起点。因为人工智能的发展还依赖于感知能力、核心性能以及支付宝等技术的支撑能力。在特定领域,如台湾旅行相关的应用中,训练大模型以实现稳定性能的贡献无疑是一个巨大的突破。
然而,我们必须清醒地认识到,实现通用人工智能还有很长的路要走。多年来,我们尚未找到理想的解决方案。此外,大模型在行业领域的应用落地仍然是一个挑战。
关于大模型为何会“懵懂”,一个原因在于生成式人工智能技术的积累已经到达了一个技术应用的拐点。这解释了为什么ChatGPT推出后能够迅速获得广泛的用户接受。与此同时,国内也涌现出众多大模型研究,但预计最终只有少数几家能够脱颖而出。
对于大模型的应用,我认为写作助手和搜索引擎是两大具有前景的方向。大模型不会替代人类,而是会成为AI助手,协助人类在各个行业领域工作。当然,某些传统岗位可能会受到AI技术的影响而面临变革。
在纯创业领域,那些无需深厚知识和事实基础的行业,大模型的应用显著快于人工,产生的输出也更为丰富。然而,尽管大模型在这些领域展现出巨大潜力,但在实际应用中仍面临诸多障碍。
以搜索引擎为例,传统搜索引擎通过索引技术快速检索信息,并呈现给用户。然而,如果结合大模型进行内容摘要和提炼,理论上可以为用户提供更精准、更有价值的搜索结果。然而,这种方法的计算资源和运行成本极高,据测算,每次搜索的成本可能高达1.3美金,这使得大规模推广和替代传统搜索引擎变得不切实际。
尽管如此,大模型在某些方面仍具有显著优势。例如,在电子咨询或考试中,大模型可以快速生成具有参考价值的答案和文献,为用户提供理想的解决方案。然而,当面对需要专业知识和严谨解释验证的行业时,如法律领域,大模型的能力就显得捉襟见肘。它可能能够告知你结果,但在解释法律条文、论证判决理由方面仍有局限。
此外,大模型在实时更新知识和处理多元价值体系方面也存在挑战。由于训练成本高昂和数据量庞大,大模型很难实现实时迭代训练。同时,在推广大模型应用于各行各业时,我们也需要构建一个能够支持现代化和多样性应用场景的架构。
大模型在纯创业领域具有显著优势,但在实际应用中仍需克服诸多障碍。未来,我们需要不断探索和完善大模型的技术和应用,以更好地满足各行各业的需求。
我们的方案通过三级架构实现大模型在行业领域和特定应用上的落地。基础在于基座大模型,由头部AI创新机构提出,其核心在于通用数据和强大算力。在大模型时代,数据提供商和算力提供商的角色愈发重要。在此基础上,我们利用领域数据训练领域模型。
然而,专业应用还需行业研发机构的参与,如企业需对大模型进行微调或基于特定数据开发AI应用。通用模型能解决80%的问题,而剩下的20%则需要专业的大模型或AI系统。
大模型的应用必须落地到行业领域,且不能直接解决专业问题。因此,行业大模型是创造价值的关键。在选择模型时,应优先考虑满足行业性能要求的最小模型,而非盲目追求规模。
模型的选择还需考虑行业特点。创意优先的应用更适合大模型,而需要严谨解释和验证的应用则小模型更为合适。在选择开源模型还是语言模型时,建议有一定研发实力的企业选择开源模型,因其可评测性和性能提升。
由于大模型可能产生幻觉,我们需要通过数据增强来限制其不确定性。在增强策略上,应根据实际情况选择检索增强或知识增强。
多模态场景是未来发展的重要方向,对于通用人工智能和泰安发展具有重要意义。要实现通用自然语言处理技术,我们需要追求更精准、更通用、更高效和更伟大的目标,致力于语言模型的现代化。
要使用多模态信息来增强语言理解和生成的能力,关键在于提升语言模型中的深度理解和复杂推理能力。我们的目标是实现数据或过程的可解释性,以便这样的系统能够适应各行各业的需求。为实现这一目标,我们需要专注于具体的工作内容,如整合多种模态的信息、优化语言模型的内部机制以及提升推理能力。最终,我们期望这样的系统能够应用于包括巨星智能在内的各种通用AI任务上。
我的分享到此结束,感谢大家的聆听。