专栏名称: 码农翻身
工作15年的前IBM架构师分享好玩有趣的编程知识和职场的经验教训, 不容错过。
目录
相关文章推荐
51好读  ›  专栏  ›  码农翻身

中国的大模型怎么突然间就领先了?

码农翻身  · 公众号  · 程序员  · 2025-02-25 08:55

正文

请到「今天看啥」查看全文


2025年开年,国产的大模型频频“刷屏”。


DeepSeek用低成本和高性能震撼了世界,MiniMax一出手就是“王炸”,MiniMax-01凭借超长的长文本理解能力,被海外媒体、投资人和研究员认为是可以和OpenAI“掰手腕”的顶尖开源模型。



之前还有人说中国顶尖企业的大型语言模型大约落后美国同行6到9个月,这怎么突然间就领先了呢?


其实,如果我们仔细看看这些优秀大模型的特点和最近的发展策略,就能从中找到答案。



0 1
底层技术创新是根本



MiniMax针对大模型 最底层、最核心的Transformer架构进行了重构 ,它第一次在一个超大规模商用模型上,引入了 有别于传统Transformer架构的线性注意力机制 ,以极低的算力成本,为困扰着整个大模型行业的难题提供一个新的解题思路。


这种底层技术创新让MiniMax-01大模型 能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍



特别值得一提的是,最近包括DeepSeek在内的多家公司的最新研究论文均聚焦于通过改进传统稀疏注意力机制的架构来提升大语言模型的长文本处理能力, 而MiniMax早在1月中旬就把具备超长文本处理能力的模型发布并且开源了!


同样,DeepSeek也是在大模型中采用了创新的架构,从而实现了极低的训练成本和很好的推理能力。


由于MiniMax-01大模型在底层技术层面做出了创新,所以一经发布,立刻在海外引起了热议浪潮。



除了开源模型,在文生视频领域,MiniMax也做了重要更新。


基于MiniMax S2V-01视频模型的“主体参考”功能,仅需上传一张图片即可识别并锁定主体角色。文本框内输入Prompt提示词,无需漫长等待,即可生成富有创意且主体保持一致的高质量视频。




主体参考+Prompt:A close-up of a young boy in a dimly lit room, his eyes fixed on the glowing screen of a gaming console. The camera is positioned slightly above eye level, focusing on his concentrated expression as his fingers nimbly manipulate the controller. A game character appears, breaking free from the screen's confines.


2024年12月,基于MiniMax大模型的海螺AI海外访问量超2700万,突破历史新高并荣登12月全球AI视频产品榜首位。



所以,对于一家大模型公司来说, 坚持技术驱动,坚持底层架构创新,不在产品上绣花,才是AI时代的正确打法


DeepSeek、MiniMax等公司就是这么做的,所以它们可以在众多大模型中脱颖而出。



0 2
前瞻性的战略布局



MiniMax的CEO闫俊杰在接受采访时说道:“中国大部分公司,不管创业公司还是大厂,都还在用做推荐系统的方法来做大模型产品。”


“推荐” 的逻辑是:用户越多,反馈越多,推荐引擎越聪明。


而闫俊杰认为,AI 大模型和产品的真实关系是:“ 更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。


换句话说,一个大模型智能的提升,并不是靠上层的应用和更多的用户,而是靠模型自己的迭代创新。


用户数并不是AI竞争的核心 ,所以MiniMax很早就转换了自己的目标: 加速模型的技术迭代


MiniMax-01模型就是这种前瞻性战略决策的成果之一,它首次在 4000 亿以上参数的大模型中,使用了线性注意力机制新架构,能高效处理全球最长的 400 万 token 上下文。


DeepSeek的爆火也证明了这一点,它不宣传用户数、API调用量这些数据,就靠强悍的模型能力,便宜的价格,在7天内狂揽1亿用户,增长速度非常夸张。


除此之外,MiniMax和DeepSeek一样,都走上了和OpenAI相反的道路: 开源


这种策略立刻点燃了全球用户的热情,掀起了讨论、部署、使用的狂潮,这种盛况是前所未有的,在封闭的ChatGPT时代是绝对不可能看到的。


当全世界的用户都能接触到最前沿的技术,并且进行持续改进时,闭源是无论如何都打不过开源的。


全世界的开发者完全可以站在开源的MiniMax-01的肩膀上,构建无数的应用生态,推动大模型加速向AGI方向发展。


开源形成巨大的影响力,占领了用户的心智,无形中极大地提升了MiniMax和DeepSeek的全球技术品牌。


这就给闭源的大模型公司形成了巨大的压力,最近,就连OpenAI CEO 山姆・阿尔特曼也承认:“ 我们过去在开源方面一直站在历史错误的一边...... OpenAI需要‘弄清楚另一种开源战略




0 3
中国大模型很有希望



从DeepSeek、MiniMax等公司的成长轨迹和战略布局中,我们可以清晰地看到,国产大模型不仅有能力迅速追赶国际领先水平,更具备超越的潜力。


它们选择了一条艰难但正确的道路:深耕底层技术,以创新为核心驱动力,同时通过开源大模型吸引全球开发者,构建开放生态。


这种“ 技术深耕+生态开放 ”的双轮驱动模式,释放出了强大的创新势能。在通往AGI(通用人工智能)的道路上,“颠覆”将成为常态,而只有那些持续突破底层技术、并成功构建繁荣生态的企业,才能在激烈的竞争中脱颖而出,成为最后的赢家。


随着更多类似MiniMax企业的涌现,中国大模型的发展前景将不可限量,有望在全球AI舞台上占据领先地位。







请到「今天看啥」查看全文