专栏名称: 晚点LatePost
晚一点,好一点。这是《财经》杂志与小晚团队联合推出的新品牌。全部一手采访,没有二手信息。做你最信任的商业新闻媒体。
目录
相关文章推荐
内蒙古政府办公厅  ·  内蒙古这一街区被选上了!你去过吗? ·  2 天前  
内蒙古政府办公厅  ·  内蒙古这一街区被选上了!你去过吗? ·  2 天前  
51好读  ›  专栏  ›  晚点LatePost

发布视频生成模型、日均交互 30 亿次,MiniMax 第一次线下活动记录

晚点LatePost  · 公众号  ·  · 2024-09-02 23:40

正文

“如果我们在竞争中打不赢,就应该被淘汰,没有其他选择。

文丨程曼祺

编辑丨黄俊杰

上周六(8 月 31 日),在上海黄浦江边状如螺旋的 “西岸漩心”,大模型独角兽 MiniMax 举办了第一届 “伙伴日”。


这是这家成立近 3 年、估值已达 30 亿美元的公司第一次办线下发布会:他们回顾了创业起点;披露了目前的关键用户数据——日均 30 亿次 AI 交互量,处理 3 万亿 Token;和技术架构更新。


现场最受瞩目的是 MiniMax 当天首发的视频生成大模型 abab-video-1。目前可支持以文字生成 6 秒的 2K 视频,25 帧率,用户已能在海螺 AI 网页版体验该模型。OpenAI 年初发布的 Sora 则能生成 60 秒、30 帧率的 2K 视频,尚未对普通用户开放。


由 MiniMax 视频生成大模型制作的短片《魔法硬币》,MiniMax 称其中每个场景都由大模型生成,未经任何修改。


发布会所在的 “西岸漩心” 被巨大的螺旋式阶梯环绕,游人可沿着步道一直走到顶层露台,眺望浦东风景。这是一条上升、平缓,然后再上升、平缓,最终达到顶点的路。此时 AI 领域似乎也处在螺旋中的相对平缓期。


当 MiniMax 创始人闫俊杰放映完由视频生成模型制作的动画短片后,观众席传来数声尖叫。至少 3 位在场的投资人说, 视频生成模型是他们当天最在意的成果


但视频生成模型本身不新鲜了,自 OpenAI 年初发布 Sora,数家中国公司跟进这一方向。


“期货” 也在成为行业关键词:GPT-5、GPT-4o 的语音视频功能、Sora……它们要么上线晚于预期,要么亮相多时后仍未大规模公测。据我们了解,国内 “六小龙”(MiniMax、月之暗面、智谱 AI、百川智能、零一万物、阶跃星辰 6 家大模型独角兽)今年的基础模型或多模态模型的更新时点也多晚于原计划。


发布结束后,闫俊杰被问起如何看待技术进展放缓。他说,一条上升、平缓、再上升的螺旋曲线合理且健康,从今年全球 AI 算力和算法性能的指数级增长中,闫俊杰看到 Scaling Laws 仍在奏效:


“虽然 GPT-4o 和 GPT-4 性能差不多,但速度快了 10 倍,这也意味着算法的进步。计算量多了不止 10 倍,算法也快了 10 倍时,没道理训练不出一个更好的模型。”


MiniMax 仍在一个个推进计划中的节点。数月前 我们对话闫俊杰 时,他提到今年视频生成模型会变得实用,这是他们的目标之一。


他当时也提到,处理更长文本的关键技术方法是 Linear Attention,那时他们还没实现这一点,而现在它成为 MiniMax 新架构的基石之一,另一个则是他们此前已研发的 MoE(混合专家系统模型)。MiniMax 的新基础模型 abab 7 就是一个使用 MoE+Linear Attention 的多模态模型。


我们整理了这次发布会闫俊杰的主题演讲,并摘录了会后群访的部分内容,其中包含 MiniMax 对评估技术进展和应对激烈竞争的想法与做法。

闫俊杰演讲整理

Intelligence with Everyone 和由此而来的 3 个判断


大家好,我是 MiniMax 的创始人 IO(闫俊杰的昵称),欢迎来到我们的第一次伙伴日活动。


首先给大家介绍一下 MiniMax 创立前的故事。在创业前,我做了超过十年的人工智能研发。当时的人工智能是什么呢?最有代表性的应用就是人脸识别和 AlphaGo。过去,大部分场景都是需要定制模型,但是又没法做到每个场景都定制,因此人工智能对很多人而言只是高大上的概念。这让作为从业者的我越来越困惑:我们花这么大力气研究人工智能,到底为了什么?


2021 年春节,我回了趟老家看望外公。他们那代人经历的一生,是我小时候最喜欢听的故事。80 岁的外公想写一本回忆录,但他不会打字,也没有足够的精力去查询资料。理论上 AI 很合适来完成这件事情,但是很遗憾,那时的 AI 做不到。


这件事让我意识到,AI 发展的终极目标,是变得更加通用,能帮助到每个人。三个词总结,就是 Intelligence with Everyone。


当我想通了这一点,一切都开始变得清晰。这让我找回了对 AI 研究的初心和热爱,以及一种强烈的使命感。


但问题接踵而来:该如何开始?


为了追求这个目标,在 2021 年底,我们成立了 MiniMax。在一个不到 100 平米的房间里写下初心和路径,其中的三个判断,直至今日我们都依然坚定选择。


闫俊杰展示创业之初,MiniMax 团队 x 写下的初心和路径判断。


第一,我们认为下一代人工智能是无限接近通过图灵测试的智能体,交互自然,触手可及,无处不在;


第二,要实现这样的目标,像造芯片一样是一个巨大的系统工程,不能只做 5%、10% 的提升,需要能带来数量级提升的技术突破。


第三,因为这件事很难,所以我们要坚定地分步走、拆解问题。我们判断应该先从容错率高的闲聊、写作切入。当技术一步一步提升,就可以做更强大的、以解决问题为导向的应用。最终给每个人带去智能的延展。


Intelligence with Everyone,和用户共创智能,不仅是目标,也是最高效,甚至是唯一的路径。很多时候不是我们的技术在帮助用户,而是用户在帮助我们。有了多元化用户的参与和反馈,才有更好的智能。


日均 30 亿次交互,处理 3 万亿 Token


从 2021 年 12 月 9 日成立到今天,刚好 996 天。目前,每天 MiniMax 的大模型和终端用户(包括自有的产品 + 开放平台伙伴)会进行 30 亿次交互。


30 亿次是什么概念?这包含每天处理超 3 万亿文本 token,每天生成 2000 万张图和每天生成 7 万小时语音。


3 万亿文本 token 又是什么概念呢?相当于一天内体验完 3000 段人生。



这 30 亿次连接背后,是来自全球各地、陪伴我们一起成长的用户。无论男女老幼,他们都有共同特点——多元、充满创意和活力。我们努力在用好的技术与他们共创惊喜时刻,这也是我们更加专注于改进技术的底层源动力。而这些用户真实的故事,汇聚成了 MiniMax 模型每日超 3 亿分钟的交互时长。


交互时长也是处理量的最佳近似指标,在很多第三方的数据网站上,像 QuestMobile、Sensor Tower 都可以查到相关数据。


一年前的今天,当时我们每天的交互时长大概只是 ChatGPT 的 3%,今天这个时长超过 50%。这也是目前所有中国公司里最大的交互时长。多个数据表明,我们可能是国内大模型日处理量最大的公司。



继续提升 AI 渗透率的方法:降低错误率、无限长度输入 / 输出、多模态


但即使取得了一定的进展,我们所连接的用户还没有达到全球人口的 1%,只有 0.8%,距离 Intelligence with Everyone 还有很长的路要走。


如何从今天的 1% 增长到 100%?最重要的是提高 AI 产品在用户中的渗透率和使用深度。


基于过去两年多的多次复盘和总结,我们认为提升这两点只能通过一件事来完成:“科学技术是第一生产力”。


放在大模型领域看——每当我们的模型有重大提升,处理速度有显著提升时,就可以看到用户使用场景和用户使用深度显著变高。反过来,这里也有一个真实案例:我们曾有一个 bug 导致对话重复错误率变高,当天的对话量就掉了 40%。这也解释了我们坚持技术创新的最底层原因。


今天的 AI 应用, 要取得渗透率和 使用深度上质的提高,还有很多技术难关要攻克。 我们认为最重要的三个优化方向是:


  1. 如何让模型的错误率持续降低:

    目前的模型还是有相对较高的错误率,有时惊艳,有时不靠谱。这也是制约模型处理复杂任务的原因,因为复杂的任务往往需要多个步骤,而较高的错误率会导致失败率指数增加。降低模型的错误率,是一个能够让模型处理复杂任务的最根本的前提,这个也是能够增加用户使用深度的核心手段。


  2. 无限长的输入和输出:

    为什么这件事情重要?很简单的原因就是人具备这个能力。传统大模型计算需求随着输入输出处理量平方上升,很快就会达到算力无法负担的上限,需要底层创新解决。


  3. 多模态:

    从生活中不难发现,文字交互只是很小的一部分,更多的是语音和视频交互。多模态内容,比如声音,图文和视频已经成为信息传递的主流。为提高渗透率,多模态是必经之路。


MoE+ 线性注意力机制:更快 + 更长


那么,如何攻克这些技术难关?在大模型领域,我们认为在同样的能力范围内,“快就是好”。


我们都知道大语言模型里面有 Scaling law,意思是说在算法一样的情况下,拥有更多的训练数据量和参数量就能达到更好的效果。因此,在两个性能类似的模型中,训练和推理更快的那个,可以更有效地利用算力资源迭代更多的数据,从而能够有一个更好的模型能力。所以我们认为,快就是好,这是一个朴素但很容易被人忽视的哲学。


“快” 是 MiniMax 底层大模型的核心技术研发目标。围绕这点,我们做了很多技术革新,这边分享两个具体的例子。


第一,MoE。在 MoE 架构还没有被行业认可时,我们就做出了一个决定,在国内率先完成核心 MoE 算法技术路线的突破。我们对比了 Dense 模型(稠密模型)和非原生的 MoE、原生的 MoE。在上一代 MiniMax 的模型 abab 6.5s 里,我们用 MoE 的模型比 Dense 模型快 3-5 倍。这个也是为什么 6.5s 模型能每天处理几十亿次交互的核心原因。我们的 6.5s 足够快,所以得到了广泛部署。



在解决 MoE 问题时,我们遇到过很多技术挑战,但花了很多精力最终解决问题之后,让我们坚定了自研的信心和直面复杂技术挑战的勇气。


这种勇气使得我们在过去几个月又解决了一个更难的技术挑战,也就是我要说的第二点——Linear Attention。


Linear Attention 不仅能带来一个级别的提升,也是解决无限长度输入和无限长度输出的关键一步。简单来说,Linear Attention 就是通过把 Transformer 中的计算左乘找到一个右乘的近似,把传统模型架构中输入长度和计算复杂度之间平方增长的关系,变成了线性关系。(注:随处理文本量的增加,一次函数的线性关系带来的计算量增长会越来越小于二次函数的平方关系。)


尽管在 2019 年就有人曾提出这种想法,但从来没有人在大规模的模型上做到 work。我们团队找到了一种新的归一化方式来代替 Softmax(一种标准 Transformer 里的 attention 采用的计算操作),以及一种位置编码来提供计算的非线性。除此之外,我们找到了一种高效的方式,使大规模训练 Linear Attention 成为可能。


今年 4 月,我们开始作为第一批钻研 Linear Attention 的 AI 公司,成功研发出了新一代的基于 MoE+ Linear Attention 的模型,真正可以比肩 GPT-4o 的水平。


以国际上领先的三个模型为例,GPT-4o、Claude3.5 sonnet、abab 7,可以看到在输入的长度变长的时候,速度的提升相比非 Linear Attention 的模型有非常显著的变化。在处理 10 万 token 时,新模型的处理效率可达 2-3 倍,并且长度越长,模型效率提升越明显。理论上,模型可以处理的 token 接近无限长。








请到「今天看啥」查看全文