有道周枫：2025是大模型应用元年，也是中小模型快速发展元年

多知网 · 公众号 · · 2025-01-18 08:00

正文

编者按：

本文转载自网易有道CEO周枫公众号，周枫谈到，2024年大模型行业飞速发展，到2025年初，国内大模型也已经达到GPT-4的水平，各领域取得显著进展，尚待突破的领域则给国内众多团队提供了未来发展的机会。同时，周枫预测，2025年既是大模型的应用元年，也是中小模型快速发展的元年。

作者|周枫

2025新年伊始，AI领域新闻就不少，在CES 2025上，黄仁勋发布了良心价的50系列显卡，开复老师宣布零一智能将退出超大模型的研发， MiniMax继DeepSeek之后发布了GPT-4o同等能力模型 ......

新年总是让人回顾过去，展望未来，因此这篇文章分享一些我对2024的行业感悟，并提出一些对2025年的展望，同时也会提及有道公司的一些工作。

2024年的大模型行业

一件了不起的事情是，到2025年初，国内大模型确实已经达到GPT-4的水平，无论是商业模型还是开源模型都实现了这一突破。回顾一年前，当时GPT-3.5尚未完全追上。如果那时预估一年后能追上GPT-4，这无疑是非常乐观的估计。从这个角度来看，2024年无疑是行业快速发展的一年，不仅超过了GPT-3.5，追平了GPT-4，甚至开源模型也达到了同等水平。此外，诸如多模态能力、视频生成模型、小模型等领域也都取得了显著进展。

然而，除了进展，识别尚待突破的领域并分析背后原因或许更为重要，这些问题可能为领域内的团队提供未来发展的机会：

一个尚未普遍具备的重要能力是实时多模态模型 （Omni Multi-modal Models）。例如，ChatGPT的高级语音模式（Advanced Voice Mode），相信许多读者已经体验过：极低的对话延迟，语气理解能力，以及随时打断、调整语速等功能，使交互自然度大幅提升。同时，其视觉理解功能还支持基于实时视觉内容的互动。这些能力构成了实时多模态模型的核心。然而，在国内市场，尽管一些头部Chat应用已具有类似能力，但仍不完整，而开源模型的差距更大。不过，像 MiniCPM-o-2.6 ， MinMo , VITA 1.5 这样近期发布的开源项目正逐步引入初步的实时多模态能力，值得关注。

另一个热点是推理模型。 通过延长模型思考时间来进行“深度思考”，提升对复杂问题的回答质量，这类技术被称为“测试时计算（Test-Time Compute）”。OpenAI在这一领域投入巨大，并推广其o1/o3产品，认为这是扩展定律（ Scaling Law ）的“第二春”。从训练阶段扩展转向测试阶段扩展，OpenAI还推出了每月200美元的高价订阅服务。

教育推理模型是有道的一个工作重点。 在教育场景中，无论是学习、做题还是讲题过程，都需要深入且长时间的思考。因此，推理模型在教育领域的应用价值非常高。

尽管OpenAI对o1进行了高调宣传，但当前推理模型仍只能算是通用人工智能（AGI）的雏形。在处理复杂问题，尤其是理科问题，o1已显著进步，评测指标翻倍增长，实际体验也令人印象深刻。我评价其解题和讲解能力大致达到“985高校高年级中等本科生水平”。模型的知识非常全面，分析题目能力强，表达也很清楚。输出的文档重点突出且行文非常流畅。

然而，在存在问题方面，会犯小错可能是目前这一代推理模型最大的软肋之一。尽管整体的知识框架非常强大，但在题意文字的细节理解、数学计算的过程等人类不容易出错的地方，这些模型反而频繁犯错误。实际上， o1正式版发布当天就有网友找到了视频中模型犯的小错误。

总的来说，当前推理模型的能力已经相当惊艳，但因为还有一些缺陷，暂时还未达到AlphaGo这样碾压人类的水平。

国内推理模型的发展同样快速，从2024年暑期摸索o1-preview的技术方向，到Q4成功跟进了一批新的推理模型，包括QwQ、 QVQ 、DeepSeek R1、Kimi K1和InternThinker等。这些模型在长思维链的生成上已经基本成型，但与o1相比仍有明显差距，例如过度思考简单问题，以及缺乏高质量最终输出。

2025是“应用元年”吗？

展望2025年，超大模型似乎成为了少数公司的游戏，更多企业应该聚集应用开发，MiniMax闫俊杰曾预测“未来全球只会剩下5家大模型企业”，我对此表示认同，对非超大模型团队而言，2025年的应用路径更值得探讨。

有道周枫：2025是大模型应用元年，也是中小模型快速发展元年

正文

请到「今天看啥」查看全文