虽然Manus在产品上还处于较粗糙的形态。但它和年初爆火的DeepSeek有一个共通点:用技术平权的手段,将AI产品迅速拉到大众面前,而不是停留在小圈子中狂欢。
(鉴于Manus引起的炒作争议,36氪特别申明,本文绝非投放,实际上,我们连要到邀请码都颇费了一番周折……)
应该无需赘述Manus的引起的轰动了:大家已经在各种视频切片中,看到Manus勤勤恳恳地搜资料、做PPT、开发网页小游戏。回放形式的分享设计,让人一眼就能感受到Agent带来的直观效率提升,这也让Manus经历一场迅速破圈。
在辗转拿到邀请码后,
36氪
编辑部讨论了一下,为了更好地了解Manus的特性和功能,我们决定请Manus来当实习生,按照正常的工作流给ta分配任务,看看Manus能否胜任。
OK,输入邀请码,
36氪
的新实习生Manus就位!
先说第一观感,如果你要请这位“实习生”,可能第一个需要接受的现实状况就是:这是位容易宕机的同学。
Manus如今的服务非常不稳定。
36氪
在周末实测时,第一感觉就是:让人崩溃……任务频繁遇到停滞,因为Manus在云上的虚拟机跑,经常需要手动重置,才能继续跑。
本期实测,就是在Manus不断的崩溃间隙,测出来的。
测试的界面,总是停留在“连接已断开”、“遇到严重问题”,需要不断重置/开启新会话…
偶尔出现的幻觉(不确定是幻觉还是官方通知)也很真实。Manus前一句还在说需要两小时升级维护,你再敲敲它,它就马上又开始干活了……
Manus号称是“第一款通用型Agents(智能体)”,这意味着它不走垂直专家路线,优势在于更通用能力的任务。Manus的官网就列出了多个分类:
Agents(智能体)不同于大模型,如果说大模型只有一个对话窗口,实现信息输入-输出。那么Agents就相当于让大模型有了行动能力,可以灵活调用各类工具完成任务。
36氪
决定先从我们编辑部的日常使用场景出发,以从易到难的程度排列,请Manus都跑一遍。
请注意,以下场景均为一次性输出的结果,除了任务中途崩溃重置计算机之外,
36氪
没有做任何的重复测试。
校对及整理
36氪
将此前的一份访谈录音原文(约2.8万字)交由Manus进行整理,核心要求是对录音速记“逐字逐句整理,不要压缩”,去除相应的口癖、对语义不清的部分进行校对。
在以前的操作中,起码要来回和模型交互十多次:将录音速记中的错误进行人工校对——再分段扔到模型中——输出完毕后,还需要重新投喂给模型进行校对,看是否有事实错误。
但Manus很明显将以往的多个步骤压缩到一个步骤,这种下达任务之后等待验收的感觉,比和ChatBot交互体验,完全是十倍以上的体验提升。
但Manus的缺陷也是明显的:上下文太短,幻觉依然有
。很多复杂任务还没有完成,就因为Token消耗太多而中止了任务。
在校对润色这一任务中,最终输出的文档长度大大压缩,基本只输出了访谈的最后一部分,总共3800多字,前面的部分基本丢失。但从已输出整理的部分来看,语气、信息完整性还是算不错。
这大概率是因为推理和协作机制做得还不够好,模型只能提供一次性输出的结果,导致压缩;也有可能是Memory机制还未能做得很好——Memory可以看作是模型暂时存储信息的 "仓库",比如聊天机器人会记住你之前说过的话。
早前一些研究工作指出,memory会随着时间或任务步骤的增加而消退。而Agent所消耗的Token,比起单ChatBot起码是两个数量级的提升——一位Agent从业者对
36氪
估计,Manus的一个复杂任务的Token消耗估计会有百万Token级别。Memory的分层管理、压缩等技术难点,还有很多提升空间。
新闻跟进及写作
对一般的ChatBot来说,输出长度都是一个老大难——
36氪
之前的测试体验中,如果是一个128K的模型,一般而言单次输出长度都在1000-2000字左右,才能保证信息完整性,不被大量压缩。
36氪
先让Manus完成最基本的新闻跟进工作。这包含几项能力:日常的新闻监控——看是否会筛选靠谱的信息源,再进行重要性分析判断,以及找相应的资料,加以补充和跟进。
Manus开始进行学习范例-搜索相关新闻等等,但是在访问路透社时被验证码挡住了,请求人类接管。
36氪
接管后,发现Manus已经被认证为机器,被屏蔽了。
Manus约花费9分钟完成这个任务,输出5条最值得关注的AI新闻,新闻源都是靠谱权威的。最后,Manus最后选择了写有关自己的新闻……哈哈。
Manus的新闻文本输出已经算是70分水平,文字通顺,主要信息点都能覆盖,但和参考的范本不同,现在的文本偏软,AI味较重。
难度往上,我们也在Manus也输入了一段 prompt,让Manus帮忙直接以36氪的深度报道栏目“深氪”为例,生成一篇长文:
这周“稚晖君”创立的智元机器人预告要发新品。“稚晖君”原名彭志辉,请你搜索彭志辉以及智元机器人的历史过程,用36氪的风格去写作一篇文章,主题为回溯智元机器人的历史,以及反映这家公司的成长,在科技行业中的意义,长度为5000字左右,可参考深度报道“深氪”栏目的风格。
请注意,语句需要深入浅出,普通人都能看懂,不要堆砌专业术语。
Manus自动进行了资料收集,写作阶段直接进行分段写作,再合并,顺利地完成了长文写作,输出结果:
在输出的文章中,Manus在深度写作上效果一般,更偏资料型整理。但遣词造句也算合格,但是风格还是偏软文。在高质量内容方面,Manus的品味还有待加强。
数据分析及可视化
从性质上来讲,Manus采用了多智能体架构。简单来说,就是可将复杂任务拆解为子任务(如数据清洗、特征工程、模型训练),通过不同的智能体,分工并行处理,显著提升数据分析效率。
不过,如果一致性做不好,多智能体的局部决策可能导致全局结果偏差较严重。
36氪
让Manus和OpenAI旗下的Deep Research,都试着做了一张“大模型API两年多以来的的API价格走势表”。
OpenAI旗下的Deep Research则是单智能体,端到端训练的模式——仅一个中心化智能体负责所有任务,决策与执行集中化。但好处在于模块集成度高,易于管理,输出质量比较有保证。
来源:Manus
Manus花费的时间较长,约三个小时,生成了一个可以交互的网页。互动性和表格样式都相当不错。不过数据详实程度,和专门做研究的Deep Research仍有差距,但问题不大
Deep Research暂时还无法输出图表,但从输出的内容质量来看,是现在的Manus还没法赶上的。
创意型任务:
可以做,但审美有点难评