专栏名称: AI范儿

AI领域四大媒体之一。智能未来，始于Prompt！

2024年中国AI都发生了什么？| 追赶与超越之路（下）

AI范儿 · 公众号 · · 2024-12-31 17:45

正文

七月盛会：WAIC群星闪耀，DeepSeek声名鹊起

如果说六月是暗流涌动，那么七月则是在聚光灯下展示实力和交流思想的舞台。每年在上海召开的世界人工智能大会（WAIC），是国内规格最高的AI盛会，2024年的大会更是规模空前，吸引了全球目光。

大会前夕，6月13日，阶跃星辰的跃问App正式推出，集成拍照问答、智能搜索等功能，旨在提升工作学习效率，简化生活。这款基于阶跃星辰Step系列大模型打造的应用，优化了联网搜索和文档解析能力，支持拍照识图和语音输入，以及多种格式文档分析，为用户提供了一个便捷的AI助手。

7月4日，在2024年WAIC大会上， 阶跃星辰公司发布了三款Step系列大模型新品，包括万亿参数语言模型 、多模态大模型和图像生成大模型，实现了从千亿到万亿参数的跨越，并在多模态领域取得突破。

第二天，国务院总理李强亲临2024世界人工智能大会并巡馆，特别到访阶跃星辰展台。阶跃星辰向总理展示了其Step系列通用大模型的最新进展，包括万亿参数语言大模型和多模态理解生成技术。

7月5日，智谱AI也在世界人工智能大会上发布了 CodeGeeX第四代模型 ，并宣布开源。CodeGeeX4-ALL-9B模型集合了代码补全、问答、解释器等多项功能，成为百亿参数以下性能最强的全能代码模型。

此外，7月30日，Kimi智能助手推出了PPT制作工具，提升了办公效率。 此后，PPT生成功能逐渐成为国产AI工具的标配。 Kimi的这一举动，也反映了AI技术在办公领域的渗透和普及。

WAIC的成功举办，不仅展示了中国AI技术的最新进展，也促进了国内外AI领域的交流与合作。而就在WAIC之后不久，来自国际权威评测机构的消息，则进一步肯定了中国AI技术的实力。

7月16日（美国时间），LMSYS组织的大模型竞技场更新结果显示， DeepSeek-V2-0628超越多个顶尖模型，荣登全球开源模型榜首 。这一成绩证明了中国开源大模型在全球舞台上的竞争力，也为中国AI行业赢得了国际声誉。

8月：蓄势待发——技术创新与应用拓展

七月的WAIC大会余热未消，AI领域的竞争并未因此停歇，反而随着深秋的到来，进入了更加激烈的博弈阶段。如果说此前是各方势力初步试探和布局的阶段，那么深秋时节，则意味着真刀真枪的较量正式拉开帷幕。人才的流动仍在继续，技术上的突破也层出不穷，各家企业都在努力寻找自己的立足点。

八月，资本的目光依然聚焦于AI赛道。 月之暗面再获超3亿美元融资，估值升至33亿美元。 这笔巨额融资，无疑为这家公司未来的发展注入了强大的信心和资金支持，也预示着他们将在接下来的竞争中扮演更重要的角色。

与此同时，技术上的突破也开始涌现。8月6日，智谱AI在视频生成领域实现重要突破，开源CogVideoX视频生成模型。这个仅需18GB显存就能实现6秒视频生成的轻量级模型，大大降低了开发者的使用门槛，让更多人能够参与到AI视频创作中来。

更令人惊喜的是，仅仅过了不到一个月，8月28日，参数规模更大、性能更强的CogVideoX-5B模型也宣布开源，显存需求更是降低到最低仅为11.4GB。智谱AI在视频生成领域的连续突破，不仅展现了其在该领域的强大技术实力，也加速了AI视频生成技术的普及。

不仅如此，字节跳动也在8月6日推出了一款名为“即梦 AI”的一站式 AI 创作平台，直接对标快手的可灵和Sora，进一步拓展其在AI创作领域的布局，试图在这一新兴市场占据更有利的位置。

在技术层面，DeepSeek也在8月2日通过创新的硬盘缓存技术，显著降低了API服务延迟和成本，大幅提升了用户体验，也为后续更大规模的应用奠定了基础。

总而言之，八月是技术创新和应用拓展并进的一个月，为接下来的竞争蓄力。

九月：百花齐放——多领域突破与格局演变

进入九月，各家企业在技术和应用层面都展开了更加积极的探索，竞争也变得更加白热化，呈现出百花齐放的态势。

9月6日，智谱宣布，其AI产品“清言”的 视频通话功能现已全面开放 ，并提供限时免费体验。这项新功能突破了传统的打字和语音交互限制，使AI能够“看”世界，理解用户表情和情绪，从而提供更自然流畅的交互体验，无疑将用户体验提升到了一个新的高度。这标志着智谱的大模型在多模态交互方面取得了重要进展，也成功追赶上了OpenAI五月份发布的GPT-4o的水平，展现了中国AI企业在技术追赶上的速度。

同样在9月6日，DeepSeek发布了V2.5模型，该模型不仅融合了通用对话和代码处理能力，还在人类偏好对齐、写作和指令跟随等方面进行了显著优化，并继续保持了Function Calling、FIM补全、Json Output等实用功能，提升了模型的综合性能。

DeepSeek V2.5不负众望，在后续的全球大模型竞技场中一举夺魁，位列国内第一，甚至超越了国内最强闭源模型，并在8个单项能力上领跑国内模型，再次向世界证明了其强大的技术实力，也为中国开源模型赢得了国际声誉。

9月10日，Kimi API开始支持联网搜索功能，成为第一家推出类似OpenAI Search功能的中国AI公司，为用户提供了更便捷、更智能的对话体验，也为其他企业树立了新的标杆，推动了AI应用的发展。

更重要的是，同日，苹果在秋季新品发布会上正式推出了“Apple Intelligence”，这一事件具有划时代的意义， 它标志着AI正式进入了手机操作系统层面，开启了AI手机的新时代。 Apple Intelligence深度整合到iOS系统中，为用户带来了前所未有的智能体验，例如智能通知摘要、邮件自动回复、照片智能编辑等。

这一举动迅速引发了整个手机行业的震动，并在接下来的几个月里，引发了中国手机厂商的集体跟进，纷纷推出了对标Apple Intelligence的AI OS，试图在新的赛道上抢占先机。Apple Intelligence的发布，无疑是2024年手机行业最重要的事件之一，它不仅改变了用户与手机的交互方式，也为AI技术的发展开辟了新的应用场景。

9月12日，OpenAI推出o1-preview和更快更便宜的o1-mini，再次为行业指明新的方向，这两款产品都更加强调在回答前投入更多“思考时间”来提升解决复杂问题的能力，为大模型的发展提供了新的思路。

更重要的是， OpenAI o1的推出，标志着AI的发展正式进入到了“推理者”阶段。 此前的AI更多是“执行者”，能够根据指令完成任务，而o1则开始展现出一定的推理能力，能够更好地理解问题、分析信息、并给出更合理的答案。

再一次，中国公司看到了新的目标，并开始积极探索在“推理”方向上的技术突破，力图在下一代AI技术浪潮中占据领先地位。

九月也是视频生成赛道的关键月份。 MiniMax发布的海螺视频生成模型abab-video-1在海内外都赚足了眼球 ，不仅获得国内网友的追捧，在国外用户中也收获了极高评价，展现了中国AI在视频生成领域的潜力。

然而，令人惋惜的是，MiniMax产品负责人、"星野"和"Talkie"的掌舵人张前川也于本月因个人原因淡出公司事务，改任产品顾问一职，这无疑给MiniMax的未来发展增添了一丝不确定性，也引发了业界对AI创业公司人才稳定性的思考。

9月19日，阿里云的通义万相在云栖大会上正式亮相，并在国风、3D动画及CG厚涂等多种风格上展现出独特优势，吸引了众多关注，也为AI艺术创作提供了更多可能性。

在同一大会上，阿里云更是宣布 Qwen2.5-72B模型全球开源，并宣布其性能超越了Llama 405B ，支持128K tokens，生成8K tokens内容，充分展现了AI在编程、多模态能力上的巨大突破，也进一步推动了开源生态的发展。

9月20日，腾讯元器AI智能体正式发布，为公众号创作带来了新的可能，也标志着AI在内容创作领域的应用进一步深入，预示着内容生产方式的变革。

9月24日， 字节跳动也发布了豆包视频生成大模型， 并声称其突破了多主体互动难关，支持多风格多比例一致性多镜头生成，适用于电商营销、动画教育等多个领域，无疑将进一步加剧视频生成赛道的竞争，推动该领域的技术进步和应用创新。

9月25日，百度AI的文心快码在沙利文和SuperCLUE两大权威评测报告中均荣获第一名，以87.55的总分在国内AI代码产品中独占鳌头。

九月，可谓是百花齐放的一个月，各家企业在不同方向上都取得了令人瞩目的进展。

从八月到九月，中国AI行业在技术创新、应用拓展和人才流动等方面都呈现出蓬勃发展的态势。各家企业都在积极探索自身的优势和突破口，共同推动着中国AI行业的进步。接下来的几个月，又将有哪些新的故事发生？

视频生成：从追赶到超越——中国AI的突围之路

在众多AI技术分支中，视频生成无疑是近年来最受瞩目的焦点之一。在这个充满挑战和机遇的赛道上，中国AI企业经历了一段从追赶到超越的历程。

春节期间，OpenAI的Sora震撼发布，给全球AI界带来了巨大冲击，也一度让中国AI企业倍感压力。然而，这种压力反而激发了中国企业的创新热情和追赶速度。

仅仅几个月后，中国企业就用实际行动证明了自己的实力。6 月6日，快手率先低调上线了自研的视频生成大模型“可灵” 。这款产品一经推出就展现出令人惊艳的实力：1080p的超高清分辨率、长达2分钟的视频生成能力、自由的宽高比调节——这些关键指标都大幅领先于当时的行业水平，甚至超越了当时尚未正式发布的Sora。

“可灵”的发展轨迹可谓稳扎稳打：6月推出图生视频，7月开放网页端，12月推出“AI导演共创计划”和1.6版本。其生成的AI爆改影视剧等内容在各大社交平台刷屏，牢牢占据着视频生成领域的领头羊位置。

9月，MiniMax的海螺视频生成模型abab-video-1异军突起，不仅在国内收获好评，更在海外用户中获得了极高的认可度。与此同时，Vidu、Pixverse等创业公司也展现出卓越的技术实力。腾讯开源的混元视频模型在效果上甚至超越了Sora。

而当OpenAI在等待近10个月后终于正式发布Sora时，却给市场带来了意外的失望。由于各种原因，Sora的实际效果与最初的演示视频相比相去甚远，不仅落后于Google的Veo2，更是被众多中国产品甩在了身后。这标志着中国企业在视频生成赛道上，首次实现了对OpenAI的真正超越。

在这个赛道上的成功，给了中国AI企业极大的信心。7月，智谱AI发布“清影”，上线6天就创造了百万级的生成量。为了保持竞争优势，智谱在8月迅速开源了CogVideoX模型。11月，“清影”升级支持4K、60帧超高清视频生成，并加入了CogSound音效模型。9月，阿里云的通义万相则选择在国风、3D动画等垂直领域寻求突破。

视频生成赛道的成功，不仅证明了中国AI企业在细分领域具备超越国际巨头的实力，更重要的是， 它打破了“永远追赶”的魔咒，为中国AI产业注入了新的信心，并预示着中国AI将走向自主创新和引领的新阶段 。

在价格战的余波中，中国AI企业开始步入一个更为深层的角逐：技术创新与全球竞争的赛道。11月，这场没有硝烟的较量悄然升温，每一个微小的突破都可能重新定义行业生态。

11月：技术创新的加速期

随着年关将近，中国AI企业展开了2024年的最后冲刺。

11月19日，阶跃星辰的Step-2在国际权威榜单LiveBench中位列全球第五，仅次于OpenAI的o1-mini，这一成绩标志着中国AI企业在国际舞台上的实力正逐步提升。同期，其Step-1V在Chatbot Arena最新榜单中位列中国第一，与Gemini-1.5-Flash并驾齐驱，展现出令人瞩目的技术实力。

在模型开源与多模态应用方面，腾讯率先发起进攻。11月5日，腾讯混元大语言模型和3D模型正式开源。其最新MoE模型"混元Large"参数规模达389B，在多学科评测中处于领先地位。

"Hunyuan3D-1.0"支持文字图像生成3D，为开发者和研究者提供了强大的工具。11月14日，腾讯元宝2.0全面升级，新增AI应用专属板块，混元模型架构支持多模态理解和生成，进一步拓展了应用边界。

然而，技术创新的道路并非一帆风顺。11月19日，腾讯混元大模型技术负责人刘威选择离职，这一人事变动引发业界对人才流动的关注。

与此同时，百度在其世界大会上展示了新的技术突破。李彦宏宣布推出检索增强的文生图技术iRAG和无代码工具"秒哒" ，iRAG致力于解决AI图像生成中的幻觉问题，"秒哒"则让非程序员能轻松实现创意，标志着AI应用正走向大众化。

在数学和推理能力方面，Kimi智能助手于11月17日发布新一代数学推理模型k0-math，其数学解题能力对标OpenAI o1系列。同时推出的Kimi探索版增强了搜索意图、信源分析和链式思考能力，为用户提供更智能的问题解决方案。

11月20日， DeepSeek全新推理模型DeepSeek-R1-Lite预览版发布 ，用户可通过官网体验。模型在数学、编程等领域表现出色，推理过程包含反思和验证，思维链长度可达数万字，展现了超越GPT-4o等模型的推理性能。目前仅支持网页使用，未来将开源并提供API服务。

整个11月，中国AI企业的共同目标似乎非常明确：在春节前赶上OpenAI 9月发布的o1版本。百度文心一言用户规模已达4.3亿， 阿里云的QVQ-72B-Preview在视觉理解和推理能力上首次与OpenAI o1和Claude3.5 Sonnet相媲美 ，这些进展都印证了国内企业追赶的決心。

从技术评测到模型开源，从多模态应用到推理能力，11月的中国AI场景呈现出前所未有的活跃和竞争态势。企业们正在以前所未有的速度缩小与国际巨头的差距，展现出令人振奋的创新潜力。

这个月的种种迹象昭示着：中国AI企业已不再满足于模仿，而是开始在全球舞台上主动发声。12月，这场竞争将进入更为激烈的阶段。

12月：创新的全面突破

如果说11月是中国AI企业加速追赶的序章，那么12月就是全面突破的关键篇章。这个月，中国AI企业在技术创新、模型开发和商业布局上展现出前所未有的进攻性。

阶跃星辰成为这个月的焦点。12月13日，公司推出国内首个千亿参数端到端语音大模型Step-1o，这款模型不仅支持语音和文本混合输入输出，更具备高智商和情商，能理解情绪信息，提供专业建议和情感陪伴。

Step-1o的推出标志着这家后来者已经完全对标OpenAI 5月发布的GPT-4o，并在语音交互领域实现重大突破。紧随其后，公司完成数亿美元B轮融资，投资方阵容包括腾讯投资、五源资本和启明创投，凸显资本市场对其技术潜力的信心。

Kimi智能助手在12月16日发布视觉思考模型k1，这是一个基于强化学习技术的突破性模型。k1支持端到端图像理解和思维链技术，覆盖数学、物理、化学等基础科学领域。在多项基准测试中，k1模型超越全球标杆模型，为Kimi在视觉思考领域插上腾飞的翅膀。

DeepSeek在12月密集推出一系列重磅模型。12月10日，V2.5最终版微调模型发布，通过Post-Training提升了数学、代码、写作等多个维度的能力。12月13日，DeepSeek-VL2正式亮相，引入动态切图策略和MoE架构，视觉能力实现大幅提升。12月26日，DeepSeek-V3横空出世，拥有671B参数，在多个领域评测中表现优异，尤其是数学和中文能力，生成速度提升至3倍。

2024年中国AI都发生了什么？| 追赶与超越之路（下）

正文

请到「今天看啥」查看全文