专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

原创｜群英荟萃：盘点2024年的大语言模型

数据派THU · 公众号 · 大数据 · 2024-12-14 17:01

主要观点总结

本文总结了2024年国内外在大语言模型（LLM）领域的进展，并展望了2025年的发展趋势。文章介绍了多个大语言模型案例，包括Open AI的o1模型、Meta的Llama 3.1和Llama 3.2、Google的Gemini系列模型、Microsoft的GPT-4o等。此外，文章还提及了国内企业如百度、金山、智谱等在LLM领域的发展。最后，文章讨论了未来个性化体验、科学研究、多语言模型和隐私保护等方面的展望。

关键观点总结

关键观点1: 国内外大语言模型的进展

介绍了多个大语言模型的案例，包括Open AI的o1模型、Meta的Llama系列模型、Google的Gemini系列模型等。国内企业如百度、金山、智谱等也在LLM领域取得了重要进展。

关键观点2: 大语言模型的应用

大语言模型在多个领域取得了广泛应用，包括智能体创建、特定领域的专业应用等。它们正在推动各行各业的创新和发展。

关键观点3: 2025年大语言模型发展的展望

个性化体验与对话式AI、科学研究与素材生成、多语言模型与全球协作以及隐私保护与负责任的AI实践等领域将是未来大语言模型发展的重点。

正文

作者：陈之炎‍
本文约3800字，建议阅读10分钟
本文将对2024年国内外大语言模型的进展进行总结，并展望2025年的发展。

随着人工智能技术的迅猛发展，大语言模型（LLM）已成为推动语言理解和生成能力进步的关键力量。2024年，无论是在学术研究还是商业应用领域，LLM都取得了显著的进展。大语言模型在2024年有哪些成功的案例？本文将对2024年国内外大语言模型的进展进行总结，并展望2025年的发展。2024年大语言模型（LLM）在多个领域的成功案例有以下内容。

1. Open AI

o1大模型

OpenAI在2024年9月13日公开了一系列全新AI大模型，旨在专门解决难题。这些新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。o1模型在一系列高难基准测试中展现出了超强实力，相比GPT-4o有巨大提升。

2. Meta

Llama 3.1

Meta发布了Llama 3.1，这是当时最大的开源AI模型，拥有4050亿参数。该模型在多个基准测试中的表现超过了GPT-4o和Anthropic的Claude 3.5 Sonnet。Llama 3.1主要处理文本任务，包括编程、回答基本数学问题以及用八种语言（英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语）总结文件。

Llama 3.2

Meta发布了其首款能够处理图像和文本的开源模型Llama 3.2。Llama 3.2包括两个视觉模型（分别拥有110亿和900亿参数）和两个轻量级仅文本模型（分别拥有10亿和30亿参数），旨在在高通、联发科等Arm硬件上运行。

MovieGen

Meta推出了MovieGen，这是一个能够根据文本输入生成视频的AI模型，具备高达300亿个参数的能力，使其能够生成长达16秒的高质量视频。MovieGen的Audio版本则可以为视频提供同步的高保真音频，标志着Meta在多模态生成技术上的重要进展。

3. Google

Gemini系列模型

Gemini 1.5 Pro：这是Gemini系列的一个进阶版本，提供了100万Tokens的上下文长度，并支持35种语言。它在多模态和长上下文处理方面取得了突破，能够处理长达2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

Gemini 1.5 Flash：这是一个更轻量级的模型，针对需要快速响应和成本效益的任务进行了优化。它在AI Studio和Vertex AI中提供，并且是为规模化构建的。

Gemma 2

Google DeepMind在2024年6月27日发布了Gemma 2，这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新，在多项基准测试中取得了显著进步，甚至可以与参数规模大2-3倍的模型相媲美。Gemma 2模型的训练数据量约为其第一代的两倍，总计13万亿Tokens（27b模型）和8万亿Tokens（9b模型）的网页数据（主要是英语）、代码和数学数据。

4. Microsoft

GPT-4o

Microsoft推出了GPT-4o，这是OpenAI的新旗舰模型，集成了文本、视觉和音频能力，为生成性和会话AI体验树立了新标准。GPT-4o现在可以在Azure OpenAI服务中以预览版的形式试用，支持文本和图像输入。

Med42

Microsoft通过Azure AI Studio提供了Med42，这是一个领先的临床大型语言模型（LLM），利用AI的力量颠覆传统医疗系统，为临床医生、科学家和患者提供价值。

lLLM2CLIP：

Microsoft研究团队提出了LLM2CLIP，这是一种新方法，利用大型语言模型（LLMs）的力量来解锁CLIP的潜力。通过在标题空间中微调LLM进行对比学习，将LLM的文本能力提取到输出嵌入中，显著提高了输出层的文本可区分性。

5. NVIDIA

NVLM 1.0系列模型

NVIDIA发布了NVLM 1.0系列多模态大语言模型，其中以72亿参数的NVLM-D-72B为代表，展示了在视觉和语言任务上的卓越性能，并增强了仅文本能力。NVLM-D-72B模型在处理复杂视觉和文本输入方面表现出色，提升了多模态训练后仅文本任务的性能，平均准确度提高了4.3个百分点。

NVIDIA NIM微服务

NVIDIA宣布了针对OpenUSD语言的NVIDIA NIM™微服务，这些AI模型可以生成OpenUSD语言回答用户查询、生成OpenUSD Python代码、对3D对象应用材料，并理解3D空间和物理以帮助加速数字孪生开发。

国内大语言模型汇总

在国内，截至2024年11月30日，多家大模型企业和机构正式宣布其服务已经上线，并向全社会开放。目前，百度、金山、智谱、百川、字节等多家企业和机构的大模型已经落地，它们可以正式上线并向公众提供服务。

1.百度

文心大模型

百度文心大模型的日均调用量已经超过了15亿次，相较一年前首次披露的5000万次，增长了近30倍。文心大模型家族持续拓展，支持企业和开发者灵活调用，百度文心大模型4.0 Turbo对企业用户全面开放。

千帆大模型平台3.0（千帆3.0）

百度智能云千帆大模型平台正式发布的功能，旨在帮助企业快速开发出面向复杂对话场景的AI应用，快速拥有专业水平的“数字员工”。

2.金山

WPS AI 2.0

金山办公在2024年7月发布了WPS AI 2.0，该版本在AI写作助手、AI阅读助手、AI数据助手、AI设计助手四个维度实现了范式革新。

金山云瀚海大模型平台

金山云在2024年3月发布了qzhou-72B基座模型和金山云瀚海大模型平台，为企业开发者提供一站式大模型训练及推理服务平台。

3.智谱AI

GLM-4

智普AI在2024年1月16日的「智谱技术开放日(Zhipu DevDay)」上发布了新一代基座大模型GLM-4。GLM-4的整体性能相比上一代大幅提升，十余项指标逼近或达到GPT-4。GLM-4支持更长上下文、更强的多模态能力、更快推理速度，更多并发，大大降低推理成本。

GLM-4-Voice

智普AI推出并开源端到端语音模型GLM-4-Voice，能够直接理解和生成中英文语音，进行实时语音对话，并能遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。

GLM-4-Plus

智普AI在KDD国际数据挖掘与知识发现大会上发布了GLM-4-Plus基座模型，通过多种方式构造出了海量高质量数据，并利用PP0等多项技术，有效提升了模型推理、指令遵循等方面的表现。

4.阿里

通义千问新一代开源模型Qwen2.5

阿里云全面升级AI基础设施，发布了通义千问新一代开源模型Qwen2.5，其旗舰版本Qwen2.5-72B在多项基准测试中表现强劲，超越行业对手。Qwen2.5系列是一个超级AI模型「百宝箱」，涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型。每个尺寸都有基础版本、指令跟随版本和量化版本，总计上架了100多个模型，刷新了业界纪录。

八观气象大模型

阿里巴巴达摩院发布的八观气象大模型，通过融合多源数据，提升了气象指标预测的准确性，尤其在新能源电力系统的应用上，时空精度达到了1小时1公里。该模型显著提高了辐照度、风速等气象数据的预测准确率，提升了新能源发电功率和电力负荷预测的准确率，分别达到了96%和98%以上。

5.字节跳动

豆包大模型家族

包括通用模型pro、通用模型lite、语音识别模型等九款模型，其中主力模型在企业市场的定价仅为0.0008元/千Tokens。

PixelDance视频生成模型

字节跳动视频生成模型PixelDance将很快在即梦AI上线，面向公众开放使用。PixelDance在语义理解、多个主体运动的复杂交互画面，还是多镜头切换的内容一致性方面，都表现出不错的效果。

这些案例展示了大语言模型在不同领域的广泛应用和深远影响，从智能体的创建到特定领域的专业应用，大模型技术正在推动各行各业的创新和发展。

2024年大语言模型技术突破与应用前景

2024年ACL会议揭示了检索增强生成（RAG）技术的重大进展。这项技术通过结合检索和生成，提升了LLMs在复杂任务中的性能。例如，“CallMeWhenNecessary: LLMs Can Efficiently and Faithfully Reason over Structured Environments”的研究通过定义标准化的推理路径，优化了模型表现，提升了推理的准确性。此外，“LLMs as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs”探索了低资源场景下的知识图谱归纳推理，为资源受限环境中应用AI提供了新的可能性。

中国市场的大语言模型产业发展迅速，百度、阿里、华为等巨头厂商陆续宣布研发或已发布大语言模型产品。这些模型不仅服务于公司战略业务拓展，还形成了差异化的商业路线。例如，百度的“文心千帆”产品剑指B端市场，意图带动云服务营收。

OpenAI的GPT-4o模型通过添加文本、图像和音频集成，扩展了多模态功能，同时降低了成本，提高了响应速度。此外，Qwen-1.5模型能以较低成本提供接近GPT-4的能力，还能通过自定义数据集进行微调，以适应特定的使用需求。

IMLIP 2024大会汇聚了全球AI语言处理专家，探讨了语言技术的未来。会议涵盖了大模型与语音技术的融合、视觉域适应与深度视频压缩的研究等多项前沿技术，推动了AI语言处理技术的深入发展。

2025年大语言模型发展展望

1.个性化体验与对话式AI

2025年，生成式AI将在个性化体验和对话式AI领域取得重大进展。企业将利用大语言模型为客户提供定制化的内容和服务，提升客户黏性和转化率。对话式AI将提升传统的客户服务体验，通过自然语言处理（NLP）和深度学习，生成式对话系统能够理解上下文并适应用户的需求。

2.科学研究与素材生成

基于大语言模型的工具将加速各学科对复杂数据集的分析，推动药物发现、材料科学等领域的创新。图像和视频生成技术也将消除传统创作过程中的瓶颈，广泛应用于广告、游戏等领域。

3.多语言模型与全球协作

到2025年，大语言模型在语言翻译和本地化中的应用将取得显著进展，彻底改变个人和企业跨语言沟通的方式。随着全球化的不断扩大，对精准且符合文化背景的翻译需求也将不断增加，大语言模型将提升机器翻译的能力，为用户提供更自然、理解语境的翻译。

4.隐私保护与负责任的AI实践

隐私保护技术的集成以及负责任的AI实践将有助于建立用户信任，确保大语言模型的应用符合伦理标准。随着各类组织利用这些进展，我们可以预见大语言模型将越来越擅长理解语境、生成类似人类的文本，并在各行各业提供定制化的解决方案。

结论

2024年，大语言模型在技术突破、产业发展、多模态与多语言能力等方面取得了显著进展。展望2025年，大语言模型将继续在个性化体验、对话式AI、科学研究、素材生成等领域发挥重要作用，同时注重多语言能力的提升和隐私保护技术的集成。随着技术的不断进步，大语言模型将在智能化需求中扮演越来越关键的角色，为全球的协作与沟通提供强大的支持。

编辑：王菁

作者简介

陈之炎， 北京交通大学通信与控制工程专业毕业，获得工学硕士学位。

数据派研究部介绍

数据派研究部成立于2017年初，以 兴趣为核心 划分多个组别，各组既遵循研究部整体的 知识分享 和 实践项目规划 ，又各具特色：

算法模型组： 积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组： 通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组： 追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组： 重于实践，积极参加比赛及策划各类文本分析项目；

制造业大数据组： 秉工业强国之梦，产学研政结合，挖掘数据价值；

数据可视化组： 将信息与艺术融合，探索数据之美，学用可视化讲故事；

网络爬虫组： 爬取网络信息，配合其他各组开发创意项目。

点击文末 “阅读原文” ，报名数据派研究部志愿者，总有一组适合你~