专栏名称: 中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
目录
相关文章推荐
上海社区发布  ·  减肥变厌食症!上海一成年女子体重只剩40余斤 ... ·  17 小时前  
上海社区发布  ·  减肥变厌食症!上海一成年女子体重只剩40余斤 ... ·  17 小时前  
环球网  ·  俄乌冲突三周年,联合国秘书长发表声明 ·  22 小时前  
北京大学百周年纪念讲堂  ·  多款专属周边陪你一起踏上《猫猫的奇幻漂流》! ·  昨天  
北京大学百周年纪念讲堂  ·  多款专属周边陪你一起踏上《猫猫的奇幻漂流》! ·  昨天  
参考消息  ·  商务部最新回应:敦促美方停止! ·  昨天  
谈理说法  ·  杨幂,申请强制执行! ·  3 天前  
谈理说法  ·  杨幂,申请强制执行! ·  3 天前  
51好读  ›  专栏  ›  中国计算机学会

温故知新 | 大模型专题精选第五期

中国计算机学会  · 公众号  ·  · 2024-08-03 17:34

正文



温故知新

CCF Link

大模型专题精选

CCF 知识库内容

往期内容

温故知新 | 大模型专题精选第四期

温故知新 | 大模型专题精选第三期

温故知新 | 大模型专题精选第二期

温故知新 | 大模型专题精选第一期

下期预告

具身智能



01

基础模型的参数高效微调

—丁宁


ADL138:ChatGPT与大模型技术



大规模预训练模型(基础模型)已经成为了人工智能领域的基础架构,在诸多任务上都取得了十分优异的表现。然而,随着模型规模的增大,将模型在特定的领域或者任务进行适配变得越来越困难。最近,参数高效微调(Parameter-Efficient Learning,或者 Delta Tuning)通过固定大模型参数不动,只微调非常少的参数(Delta),就可以达到与全参数微调相当的效果,取得了很多突破性进展。这类方法不仅可以显著提升模型适配的计算效率、节省存储成本,还可以揭示模型适配的内在规律。本报告将全面介绍基础模型的参数高效微调技术、理论和应用的前沿动态,并且对相关技术的发展进行未来展望。



精彩内容节选



首先就是我们大家都知道的Prompt-learning,或者叫Prompting,就是所谓的提示学习,就是说我们给一个模型把它作为Encoder,在上面加一个分类层,比如说我这个分类它有十类,这个分类层最后就会输出一个维度为十的一个概率分。哪个概率大我就选哪个。我会发现这样的范式,这个分类层它本身是随机初始化的,就是说它和这些预训练的过程中还是有一些不一样。


那么我们怎么做呢?其实很简单,就是我们把一个下游任务转化成一个上游的预训练的任务。说上游我们一直在做包括语言建模,或者说是Masked Language Modeling,我们还是让它做同样的一件事情。这时候我们会输出一个在词典范围内的概率分布。在词典概率内,比如说这个4万维,我们会想它可能会更加的难以去判断哪个类对,哪个类不对。那没关系,我们只去选其中我们关心的。比如说这是一个二分类,它只有好和坏两类,就去选好和坏两类对应的词。那他们哪个相对的概率高,那么就可以去那我们就可以完成这个分类。


事实证明就这种Prompt-learning的方式在少样本极其有效,它可能会比那种Meta-learning方式要有效的多。所以说现在这种方式可以很大的激发这个训练模型的性能,也是一个必不可少的范式......



模型适配

下游任务

神经网络



02

基础模型工具学习

—秦禹嘉


ADL138:ChatGPT与大模型技术



探讨了工具学习(tool learning)的范式,这种范式结合了工具和基础大模型的优势,从而能够实现更加智能地使用工具解决特定任务。首先探讨了人类历史上工具使用的认知起源和基础模型带来的范式转变,并回顾了现有工具学习研究。其次提出了一个通用的工具学习框架,讨论了其中重要的研究课题,例如工具的封装和理解、如何让模型理解用户意图操纵工具等。为了促进这一领域的研究,我们建立了一个交互式工具学习平台,并评估了ChatGPT和GPT-3.5的工具使用能力。最后,我们将讨论工具学习的广泛影响,包括安全、个性化和具身学习等。我们的工作旨在激发进一步研究,将工具与基础模型集成起来,为人类和机器协同工作的未来铺平道路。



精彩内容节选



接下来跟大家聊一下工具学习的一些应用,说到工具学习应用,大家可能最先想的就是ChatGPT Plugins,可以说是ChatGPT的App store的时刻,实际上ChatGPT具备了更强的,或者是全部能力,只要提供简单的API的Description,ChatGPT就能够很好的调用各自用户上传的数据。实际去看,现在ChatGPT上支持的大概80个G,它背后其实写了Prompt的方式,当然你都可以直接把它试出来,其实很简单,方便大家使用。当然ChatGPT Plugins它天生也支持、自己优化也比较好的一个工具是Web browsing,它背后其实是刚才提到的WebGPT,还有一个工具是Code interpreter,让模型去调用代码解析器,甚至执行这个代码,解决一些复杂的问题,


但是ChatGPT至今也只给Plus用户使用,给网关用户开放。其次就是国内用户使用API也有一些困难,所以我们也是想探索它是否有其他的一些解决方案。又要提到LangChain,LangChain其实是第一个做到开源的这种工具调用这个方案,它核心思路就是说,无论是工具还是模型,都可以把它沿用Chain方式连接起来,做了一个Simple Sequential Chain,就是说我第一个工具的结束,模型的输出也可以作为下一个工具的输出,这样把大家都连在一块,就可以形成新的一套调用模式,LangChain是大家用的最多的一套方案。


然后再往下,其实大家都比较熟的AutoGPT和BabyAGI这两套思路,其实它们本质上跟LangChain没有什么区别,实际上就是做了更好的方式,设计了更好的流程,AutoGPT、BabyAGI差不太多,我们在实际上使用发现AutoGPT它的效果实际上比BabyAGI好,归结于它这个Prompt方式......



工具学习

基础模型

NLP任务



03

3D AIGC基础与前沿进展

—刘烨斌


ADL134:生成式人工智能基础理论与前沿应用



本报告将从三维生成的基础表达开始介绍,包括神经辐射场(NeRF)、隐式距离场、可微网格模型(DMTet)、高斯点云(Gaussian Splatting),结合Diffusion方法,介绍上述典型的三维对象生成方法。同时,围绕如何实现快速、高质、鲁棒的3D AIGC方法,介绍近几个月来新出现的3D-AIGC方法,如

Zero-123,MVDreamer,DreamCraft3D。

最后,针对人体三维对象的生成,介绍包括HumanNorm,AvatarRex等针对人头人体静态动态及化身生成的各类方法。



精彩内容节选







请到「今天看啥」查看全文