专栏名称: 36氪

36氪是中国领先的新商业媒体，提供最新锐最具深度的商业报道。我们强调趋势与价值，我们的slogan是：让一部分人先看到未来。

目录

相关文章推荐

新浪科技 · 【#俞敏洪回应网友建议送雷军英语课##俞敏洪 ... · 昨天

腾讯研究院 · 腾讯研究院AI速递 20250312 · 3 天前

爱范儿 · M4 MacBook Air ... · 3 天前

新浪科技 · 【#花旗下调两年iPhone出货量预测#，维 ... · 3 天前

新浪科技 · 【#交个朋友称用DeepSeek1天卖3.3 ... · 3 天前

51好读 › 专栏 › 36氪

让Manus给36氪当一天实习生后，我们想给ta多发点奖金

36氪 · 公众号 · 科技媒体 · 2025-03-12 18:15

正文

虽然Manus在产品上还处于较粗糙的形态。但它和年初爆火的DeepSeek有一个共通点：用技术平权的手段，将AI产品迅速拉到大众面前，而不是停留在小圈子中狂欢。

文｜邓咏仪

编辑｜苏建勋

来源｜ 智能涌现（ID：AIEmergence）

封面来源 ｜ AI生成

（鉴于Manus引起的炒作争议，36氪特别申明，本文绝非投放，实际上，我们连要到邀请码都颇费了一番周折……）

应该无需赘述Manus的引起的轰动了：大家已经在各种视频切片中，看到Manus勤勤恳恳地搜资料、做PPT、开发网页小游戏。回放形式的分享设计，让人一眼就能感受到Agent带来的直观效率提升，这也让Manus经历一场迅速破圈。

在辗转拿到邀请码后， 36氪编辑部讨论了一下，为了更好地了解Manus的特性和功能，我们决定请Manus来当实习生，按照正常的工作流给ta分配任务，看看Manus能否胜任。

OK，输入邀请码， 36氪的新实习生Manus就位！

先说第一观感，如果你要请这位“实习生”，可能第一个需要接受的现实状况就是：这是位容易宕机的同学。

Manus如今的服务非常不稳定。 36氪在周末实测时，第一感觉就是：让人崩溃……任务频繁遇到停滞，因为Manus在云上的虚拟机跑，经常需要手动重置，才能继续跑。

本期实测，就是在Manus不断的崩溃间隙，测出来的。

测试的界面，总是停留在“连接已断开”、“遇到严重问题”，需要不断重置/开启新会话…

偶尔出现的幻觉（不确定是幻觉还是官方通知）也很真实。Manus前一句还在说需要两小时升级维护，你再敲敲它，它就马上又开始干活了……

捉摸不透的Manus

Manus号称是“第一款通用型Agents（智能体）”，这意味着它不走垂直专家路线，优势在于更通用能力的任务。Manus的官网就列出了多个分类：

Manus官网来源：Manus

Agents（智能体）不同于大模型，如果说大模型只有一个对话窗口，实现信息输入-输出。那么Agents就相当于让大模型有了行动能力，可以灵活调用各类工具完成任务。

36氪决定先从我们编辑部的日常使用场景出发，以从易到难的程度排列，请Manus都跑一遍。

请注意，以下场景均为一次性输出的结果，除了任务中途崩溃重置计算机之外， 36氪没有做任何的重复测试。

校对及整理

我们先请Manus完成比较基础的校对、整理工作。

36氪将此前的一份访谈录音原文（约2.8万字）交由Manus进行整理，核心要求是对录音速记“逐字逐句整理，不要压缩”，去除相应的口癖、对语义不清的部分进行校对。

在以前的操作中，起码要来回和模型交互十多次：将录音速记中的错误进行人工校对——再分段扔到模型中——输出完毕后，还需要重新投喂给模型进行校对，看是否有事实错误。

但Manus很明显将以往的多个步骤压缩到一个步骤，这种下达任务之后等待验收的感觉，比和ChatBot交互体验，完全是十倍以上的体验提升。

图源：Manus

但Manus的缺陷也是明显的：上下文太短，幻觉依然有 。很多复杂任务还没有完成，就因为Token消耗太多而中止了任务。

在校对润色这一任务中，最终输出的文档长度大大压缩，基本只输出了访谈的最后一部分，总共3800多字，前面的部分基本丢失。但从已输出整理的部分来看，语气、信息完整性还是算不错。

Manus在执行长文任务

这大概率是因为推理和协作机制做得还不够好，模型只能提供一次性输出的结果，导致压缩；也有可能是Memory机制还未能做得很好——Memory可以看作是模型暂时存储信息的 "仓库"，比如聊天机器人会记住你之前说过的话。

早前一些研究工作指出，memory会随着时间或任务步骤的增加而消退。而Agent所消耗的Token，比起单ChatBot起码是两个数量级的提升——一位Agent从业者对 36氪估计，Manus的一个复杂任务的Token消耗估计会有百万Token级别。Memory的分层管理、压缩等技术难点，还有很多提升空间。

新闻跟进及写作

对一般的ChatBot来说，输出长度都是一个老大难—— 36氪之前的测试体验中，如果是一个128K的模型，一般而言单次输出长度都在1000-2000字左右，才能保证信息完整性，不被大量压缩。

36氪先让Manus完成最基本的新闻跟进工作。这包含几项能力：日常的新闻监控——看是否会筛选靠谱的信息源，再进行重要性分析判断，以及找相应的资料，加以补充和跟进。

Manus开始进行学习范例-搜索相关新闻等等，但是在访问路透社时被验证码挡住了，请求人类接管。 36氪接管后，发现Manus已经被认证为机器，被屏蔽了。

Manus约花费9分钟完成这个任务，输出5条最值得关注的AI新闻，新闻源都是靠谱权威的。最后，Manus最后选择了写有关自己的新闻……哈哈。

Manus写有关自己的新闻

Manus的新闻文本输出已经算是70分水平，文字通顺，主要信息点都能覆盖，但和参考的范本不同，现在的文本偏软，AI味较重。

但在我们提出修改意见后，第二版好了许多。

基本是可以细微调整调后，直接发表的水平

难度往上，我们也在Manus也输入了一段 prompt，让Manus帮忙直接以36氪的深度报道栏目“深氪”为例，生成一篇长文：

这周“稚晖君”创立的智元机器人预告要发新品。“稚晖君”原名彭志辉，请你搜索彭志辉以及智元机器人的历史过程，用36氪的风格去写作一篇文章，主题为回溯智元机器人的历史，以及反映这家公司的成长，在科技行业中的意义，长度为5000字左右，可参考深度报道“深氪”栏目的风格。

请注意，语句需要深入浅出，普通人都能看懂，不要堆砌专业术语。

Manus自动进行了资料收集，写作阶段直接进行分段写作，再合并，顺利地完成了长文写作，输出结果：

写作一篇有关智元机器人的深度长文

在输出的文章中，Manus在深度写作上效果一般，更偏资料型整理。但遣词造句也算合格，但是风格还是偏软文。在高质量内容方面，Manus的品味还有待加强。

数据分析及可视化

研究型任务也是Manus的强项。

从性质上来讲，Manus采用了多智能体架构。简单来说，就是可将复杂任务拆解为子任务（如数据清洗、特征工程、模型训练），通过不同的智能体，分工并行处理，显著提升数据分析效率。

不过，如果一致性做不好，多智能体的局部决策可能导致全局结果偏差较严重。

36氪让Manus和OpenAI旗下的Deep Research，都试着做了一张“大模型API两年多以来的的API价格走势表”。

OpenAI旗下的Deep Research则是单智能体，端到端训练的模式——仅一个中心化智能体负责所有任务，决策与执行集中化。但好处在于模块集成度高，易于管理，输出质量比较有保证。

来源：Manus

Manus花费的时间较长，约三个小时，生成了一个可以交互的网页。互动性和表格样式都相当不错。不过数据详实程度，和专门做研究的Deep Research仍有差距，但问题不大

来源：Deep Research

Deep Research暂时还无法输出图表，但从输出的内容质量来看，是现在的Manus还没法赶上的。

创意型任务：

可以做，但审美有点难评

请到「今天看啥」查看全文

推荐文章

新浪科技 · 【#俞敏洪回应网友建议送雷军英语课##俞敏洪怕雷军上英语课太累#-20250313113901

昨天

腾讯研究院 · 腾讯研究院AI速递 20250312

3 天前

爱范儿 · M4 MacBook Air 首发评测：不止天蓝色，性能有惊喜

3 天前

新浪科技 · 【#花旗下调两年iPhone出货量预测#，维持苹果“买入”评级】-20250311182500

3 天前

新浪科技 · 【#交个朋友称用DeepSeek1天卖3.3亿元属实#】#用De-20250311181000

3 天前

潮人 · 头条 | 我丰乳肥臀的麻辣鸡终于恢复单身辣！

8 年前

钱皓频道 · 特朗普也要玩大的！解析美国总统就职演讲背后的故事

8 年前

投行圈 · 面对2017，中国自信满满

8 年前

XYSTRATEGY · 【兴证策略王德伦团队】资产荒的谢幕与调整的延续

7 年前

乐趣微生活 · 带女友出去没想到...笑死了【NO2】

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!