本文约3800字,建议阅读10分钟
本文将对2024年国内外大语言模型的进展进行总结,并展望2025年的发展。
随着人工智能技术的迅猛发展,大语言模型(LLM)已成为推动语言理解和生成能力进步的关键力量。2024年,无论是在学术研究还是商业应用领域,LLM都取得了显著的进展。大语言模型在2024年有哪些成功的案例?本文将对2024年国内外大语言模型的进展进行总结,并展望2025年的发展。2024年大语言模型(LLM)在多个领域的成功案例有以下内容。
1. Open AI
OpenAI在2024年9月13日公开了一系列全新AI大模型,旨在专门解决难题。这些新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。o1模型在一系列高难基准测试中展现出了超强实力,相比GPT-4o有巨大提升。2. Meta
Meta发布了Llama 3.1,这是当时最大的开源AI模型,拥有4050亿参数。该模型在多个基准测试中的表现超过了GPT-4o和Anthropic的Claude 3.5 Sonnet。Llama 3.1主要处理文本任务,包括编程、回答基本数学问题以及用八种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)总结文件。Meta发布了其首款能够处理图像和文本的开源模型Llama 3.2。Llama 3.2包括两个视觉模型(分别拥有110亿和900亿参数)和两个轻量级仅文本模型(分别拥有10亿和30亿参数),旨在在高通、联发科等Arm硬件上运行。Meta推出了MovieGen,这是一个能够根据文本输入生成视频的AI模型,具备高达300亿个参数的能力,使其能够生成长达16秒的高质量视频。MovieGen的Audio版本则可以为视频提供同步的高保真音频,标志着Meta在多模态生成技术上的重要进展。3. Google
Gemini 1.5 Pro:这是Gemini系列的一个进阶版本,提供了100万Tokens的上下文长度,并支持35种语言。它在多模态和长上下文处理方面取得了突破,能够处理长达2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。Gemini 1.5 Flash:这是一个更轻量级的模型,针对需要快速响应和成本效益的任务进行了优化。它在AI Studio和Vertex AI中提供,并且是为规模化构建的。Google DeepMind在2024年6月27日发布了Gemma 2,这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新,在多项基准测试中取得了显著进步,甚至可以与参数规模大2-3倍的模型相媲美。Gemma 2模型的训练数据量约为其第一代的两倍,总计13万亿Tokens(27b模型)和8万亿Tokens(9b模型)的网页数据(主要是英语)、代码和数学数据。4. Microsoft
Microsoft推出了GPT-4o,这是OpenAI的新旗舰模型,集成了文本、视觉和音频能力,为生成性和会话AI体验树立了新标准。GPT-4o现在可以在Azure OpenAI服务中以预览版的形式试用,支持文本和图像输入。Microsoft通过Azure AI Studio提供了Med42,这是一个领先的临床大型语言模型(LLM),利用AI的力量颠覆传统医疗系统,为临床医生、科学家和患者提供价值。Microsoft研究团队提出了LLM2CLIP,这是一种新方法,利用大型语言模型(LLMs)的力量来解锁CLIP的潜力。通过在标题空间中微调LLM进行对比学习,将LLM的文本能力提取到输出嵌入中,显著提高了输出层的文本可区分性。5. NVIDIA
NVIDIA发布了NVLM 1.0系列多模态大语言模型,其中以72亿参数的NVLM-D-72B为代表,展示了在视觉和语言任务上的卓越性能,并增强了仅文本能力。NVLM-D-72B模型在处理复杂视觉和文本输入方面表现出色,提升了多模态训练后仅文本任务的性能,平均准确度提高了4.3个百分点。NVIDIA宣布了针对OpenUSD语言的NVIDIA NIM™微服务,这些AI模型可以生成OpenUSD语言回答用户查询、生成OpenUSD Python代码、对3D对象应用材料,并理解3D空间和物理以帮助加速数字孪生开发。在国内,截至2024年11月30日,多家大模型企业和机构正式宣布其服务已经上线,并向全社会开放。目前,百度、金山、智谱、百川、字节等多家企业和机构的大模型已经落地,它们可以正式上线并向公众提供服务。百度文心大模型的日均调用量已经超过了15亿次,相较一年前首次披露的5000万次,增长了近30倍。文心大模型家族持续拓展,支持企业和开发者灵活调用,百度文心大模型4.0 Turbo对企业用户全面开放。百度智能云千帆大模型平台正式发布的功能,旨在帮助企业快速开发出面向复杂对话场景的AI应用,快速拥有专业水平的“数字员工”。金山办公在2024年7月发布了WPS AI 2.0,该版本在AI写作助手、AI阅读助手、AI数据助手、AI设计助手四个维度实现了范式革新。金山云在2024年3月发布了qzhou-72B基座模型和金山云瀚海大模型平台,为企业开发者提供一站式大模型训练及推理服务平台。智普AI在2024年1月16日的「智谱技术开放日(Zhipu DevDay)」上发布了新一代基座大模型GLM-4。GLM-4的整体性能相比上一代大幅提升,十余项指标逼近或达到GPT-4。GLM-4支持更长上下文、更强的多模态能力、更快推理速度,更多并发,大大降低推理成本。智普AI推出并开源端到端语音模型GLM-4-Voice,能够直接理解和生成中英文语音,进行实时语音对话,并能遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。智普AI在KDD国际数据挖掘与知识发现大会上发布了GLM-4-Plus基座模型,通过多种方式构造出了海量高质量数据,并利用PP0等多项技术,有效提升了模型推理、指令遵循等方面的表现。阿里云全面升级AI基础设施,发布了通义千问新一代开源模型Qwen2.5,其旗舰版本Qwen2.5-72B在多项基准测试中表现强劲,超越行业对手。Qwen2.5系列是一个超级AI模型「百宝箱」,涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型。每个尺寸都有基础版本、指令跟随版本和量化版本,总计上架了100多个模型,刷新了业界纪录。阿里巴巴达摩院发布的八观气象大模型,通过融合多源数据,提升了气象指标预测的准确性,尤其在新能源电力系统的应用上,时空精度达到了1小时1公里。该模型显著提高了辐照度、风速等气象数据的预测准确率,提升了新能源发电功率和电力负荷预测的准确率,分别达到了96%和98%以上。包括通用模型pro、通用模型lite、语音识别模型等九款模型,其中主力模型在企业市场的定价仅为0.0008元/千Tokens。字节跳动视频生成模型PixelDance将很快在即梦AI上线,面向公众开放使用。PixelDance在语义理解、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性方面,都表现出不错的效果。
这些案例展示了大语言模型在不同领域的广泛应用和深远影响,从智能体的创建到特定领域的专业应用,大模型技术正在推动各行各业的创新和发展。2024年ACL会议揭示了检索增强生成(RAG)技术的重大进展。这项技术通过结合检索和生成,提升了LLMs在复杂任务中的性能。例如,“CallMeWhenNecessary: LLMs Can Efficiently and Faithfully Reason over Structured Environments”的研究通过定义标准化的推理路径,优化了模型表现,提升了推理的准确性。此外,“LLMs as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs”探索了低资源场景下的知识图谱归纳推理,为资源受限环境中应用AI提供了新的可能性。中国市场的大语言模型产业发展迅速,百度、阿里、华为等巨头厂商陆续宣布研发或已发布大语言模型产品。这些模型不仅服务于公司战略业务拓展,还形成了差异化的商业路线。例如,百度的“文心千帆”产品剑指B端市场,意图带动云服务营收。OpenAI的GPT-4o模型通过添加文本、图像和音频集成,扩展了多模态功能,同时降低了成本,提高了响应速度。此外,Qwen-1.5模型能以较低成本提供接近GPT-4的能力,还能通过自定义数据集进行微调,以适应特定的使用需求。IMLIP 2024大会汇聚了全球AI语言处理专家,探讨了语言技术的未来。会议涵盖了大模型与语音技术的融合、视觉域适应与深度视频压缩的研究等多项前沿技术,推动了AI语言处理技术的深入发展。2025年,生成式AI将在个性化体验和对话式AI领域取得重大进展。企业将利用大语言模型为客户提供定制化的内容和服务,提升客户黏性和转化率。对话式AI将提升传统的客户服务体验,通过自然语言处理(NLP)和深度学习,生成式对话系统能够理解上下文并适应用户的需求。基于大语言模型的工具将加速各学科对复杂数据集的分析,推动药物发现、材料科学等领域的创新。图像和视频生成技术也将消除传统创作过程中的瓶颈,广泛应用于广告、游戏等领域。到2025年,大语言模型在语言翻译和本地化中的应用将取得显著进展,彻底改变个人和企业跨语言沟通的方式。随着全球化的不断扩大,对精准且符合文化背景的翻译需求也将不断增加,大语言模型将提升机器翻译的能力,为用户提供更自然、理解语境的翻译。隐私保护技术的集成以及负责任的AI实践将有助于建立用户信任,确保大语言模型的应用符合伦理标准。随着各类组织利用这些进展,我们可以预见大语言模型将越来越擅长理解语境、生成类似人类的文本,并在各行各业提供定制化的解决方案。2024年,大语言模型在技术突破、产业发展、多模态与多语言能力等方面取得了显著进展。展望2025年,大语言模型将继续在个性化体验、对话式AI、科学研究、素材生成等领域发挥重要作用,同时注重多语言能力的提升和隐私保护技术的集成。随着技术的不断进步,大语言模型将在智能化需求中扮演越来越关键的角色,为全球的协作与沟通提供强大的支持。陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位。
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU