Manus仿佛一夜之间跃升为了AI领域的顶流明星,仅凭一场非正式的发布会便实现了这一飞跃。其邀请码在某二手交易平台上甚至被炒高至5万元,这一景象无疑令两拨人感到惶恐不安:一是投资人群体,二是各大科技大厂。那么,Manus究竟有何神奇之处?这是否只是一场虚火的炒作,还是它确实拥有货真价实的实力呢?
01.
它可以做什么?
Manus展现出了惊人的能力,它能够全自主地完成针对特斯拉的财报分析报告,也能协助你创建一个功能完备、可正常交互的网站,甚至还能开发出一款即刻上手玩的RPG游戏。它不仅能够搭建开发环境、自主编写代码、自我进行debug以及自行编译,而且在面对如地区人口调研报告这样的复杂任务时,Manus能够自主访问数据库、搜索并决定采用哪些数据来完成报告。简而言之,Manus几乎仅凭一个指令(prompt)就能完成一个复杂的分析项目。
在AI agent的权威评测标准GAIA benchmark下,Manus的表现甚至超越了OpenAI的DeepSearch。笔者深入分析了用户在推特及国内社交媒体上分享的使用案例,从执行流程来看,Manus的表现与DeepSearch不相上下。每个流程的执行代码、产出文件都清晰可见,且被井然有序地整理好,以供用户查阅。特别是在对特斯拉和英伟达的财报分析及估值结果方面,Manus的表现不输于雪球上的众多知名大V。
尤为令人惊艳的是,Manus通过自行搭建的虚拟电脑,执行数据获取、计算、开发环境搭建和测试等一系列高难度的技术环节,这极大地减轻了用户的负担,使得新用户也能从零开始,轻松上手工作。
02.
背后的团队
Manus之所以能在社交媒体上引发如此巨大的反响,除了其超乎寻常的高质量产出外,作为国内团队自主研发的产物也是点燃这一热潮的重要催化剂。在AI领域,国内团队的发展步伐似乎并未落后于美国那些汇聚了全球精英的梦之队。据我们了解,Manus是国内AI创业团队Monica AI推出的另一款力作。
Monica AI作为一款AI chatbot产品,与国外那些尚处于原生状态的chatbot有所不同。它并非仅仅提供一个模型使用入口,而是通过提供大量垂直领域的可直接使用的API接口,使用户无需担忧prompt的优化问题,即可轻松上手使用。创始人肖宏在打造这款模式简洁的chatbot产品时,已经敏锐地意识到了大模型与用户之间交互方式的局限性。尽管模型本身优秀且具备“超能力”,能够在一系列精心调教下完成复杂项目,但chatbot直接将用户与大模型对接,导致用户只能分批次通过1v1对话让模型分步骤产出结果。甚至,用户可能都无法确定输入给模型的token是否为完成该任务的最优方案。
而Manus则打破了这一局限,它让人们能够在对话框中一步到位地解决更复杂、需要更高智能的任务。从这个角度来看,Manus更像是一个经过精心规划的AI任务集合体。团队刻意淡化了大模型的神奇之处,转而站在用户的角度,思考如何通过发挥模型的优势来完成日常任务。这是一次既务实又珍贵的探索。Manus的故事展现了连续创业者对用户需求的精准洞察能力和团队的卓越执行力。至于AI所需的技术实力如何,我们稍后再作详细探讨。
03.
产品的亮点
据自媒体《赛博禅心》接近Manus团队的报道透露,Manus完成单条任务的成本大约在2美金左右,仅为Deep Search的十分之一。该报道还指出,Manus基于Claude 3.7、Sonet以及国内的Qwen模型进行了进一步的训练优化,这一点在创始人的播客访谈中也得到了确认。在打造Monica时,他们便未止步于作为prompt的中转站,而是增加了产品调优过程,正如一位天赋异禀的练武奇才,需经后天努力方能笑傲江湖。
Manus所展现的任务自主规划、思考和完成能力,得益于其独特的混合模型架构。它并非简单地将任务的某一环节交由Claude处理,另一环节则由Qwen负责,而是打破了模型的“结界”,让每个模型都能在其擅长的任务环节发挥最大效用。通过多个大模型的混合使用,加之Manus的虚拟云端执行环境,用户只需一次性敲击键盘,便能完成以往chatbot需经多轮对话才可能解决的复杂需求。
关于Manus的执行过程,结合《赛博禅心》提出的“工程驱动创新”理念及多个社交媒体上的案例分享,我们对其运行机制进行了初步推测。首先,大模型(推测为Qwen)会对输入进行分析,确定任务类型。Manus内部应有一个对输入进行类目划分的机制,如编程任务、多模态内容生成、任务规划类、建议咨询类等。其次,若输入语言为英文,则任务执行可能以Claude为主。
具体到任务执行层面,我们的推测过程如下:
1.接收输入后,大模型会首先进行任务分类,决定后续任务执行的模型选择。
2.接着,大模型将输入拆解成多个具有层级关系、优先级和执行顺序的子任务。
3.按序执行后,上级任务的输出成为下级任务的输入。
4.多个任务产出最终合并成一个分析结果。
对于每个子节点的模型选择,我们推测编程任务可能以Claude为主,中文决策建议类则以Qwen为主。根据子节点任务的复杂度,执行过程中单一任务甚至可能是Qwen和Claude的混合使用,然后再通过模型对比效果,最终保留效果最佳的一个。
从上述分析可见,初始需求的输入质量对后续任务类型判断、子节点规划和执行效率具有决定性影响。因此,Manus对输入质量要求很高,通常需要用户详细且完整地描述需求内容。这可能会成为Manus被诟病的一点,毕竟任务执行时间较长,若因描述不清晰而导致时间和算力浪费,将严重影响产品体验。这反映出产品尚待成熟,相信未来团队会对此进行改进。毕竟,一次任务执行的成本相当于一杯奶茶钱呢。
04.
当前的问题
从2022年至2025年,历经三年多的大模型风口所带来的一轮又一轮认知冲击,人们对于大模型产品的使用体验已经大体上跨越了那个决定产品去留的“啊哈时刻”(AHA Moment)。如今,一个大模型产品若想在市场上站稳脚跟,除了效果惊人之外,还必须确保稳定且高效,唯有如此,方能长久地吸引并留住用户。
效果稳定性
回顾Manus的表现,鉴于我们的Manus账号仍停留在愿望清单中,从推特及国内社交媒体上用户的反馈来看,其口碑似乎并未像DeepSeek那样赢得众口一词的赞誉。用户对Manus产出的稳定性表示出极大的担忧,甚至出现了不少因事实错误而令人啼笑皆非的情况。在执行任务过程中,一旦数据或事实使用不当,就会导致最终产出失去可信度,进而使得那2美元的成本付诸东流。
算力
除了效果不稳定之外,单任务执行时间过长也是用户诟病的另一个焦点。尽管Manus已经展示了其任务执行的逻辑和流程,但用户仍需面对漫长的等待时间,甚至有用户发推表示自己的任务执行了4至5个小时。这背后反映出团队对使用量的预估不足,以及Manus自身架构难以满足巨大的算力需求。此外,用户已被各大模型培养出了高要求,习惯了快速获取结果的体验,因此对于长达数小时的等待自然难以忍受。
实际上,如果Manus能够为用户提供一个可预见的完成时间,或许能够减轻用户等待时的焦虑感。毕竟,对于一个复杂的分析任务而言,即使执行时间长达2至3个小时,甚至半天,其效率也往往远超现实中的初级员工。因此,如何在保证任务质量的同时,提高执行效率并给用户一个明确的预期,将是Manus团队未来需要重点考虑的问题。
技术能力
如果说算力问题可以通过增加计算资源来解决,那么团队技术能力的短板则可能是一个短期内难以迅速弥补的挑战。即便不与DeepSeek这样的梦之队相提并论,Manus现有的技术储备或许更适合支撑一款日活百万级左右的用户端产品。由连续创业者组成的团队可能在需求发掘方面具有天然优势,能够迅速搓出一个可上线使用的产品原型。然而,随着用户量的增长,一系列问题便接踵而至:如何应对技术升级的需求?这些都是需要长期规划和逐步解决的问题。
当前,Manus用户反馈的“套壳”现象以及运行速度缓慢、任务卡顿等问题,正是这些技术挑战的直观体现。从团队的道歉信中,我们也不难看出,他们或许未曾预料到这款产品会如此迅速地走红并引发广泛关注。
尽管如此,Manus仍然拥有一个优秀的起步基础,以及一个擅长发现和抓住用户需求的创始团队来引领研发方向。然而,为了让Manus能够更快、更稳定地成长,团队还需要吸引更多AI领域的人才加入。毕竟,就当前的产品现状而言,内行人使用几次后便能大致了解其架构,这对于大厂来说,拷贝出一个类似的产品并非难事。因此,加强技术团队建设,提升产品核心竞争力,将是Manus未来发展中不可或缺的一环。
05.
Manus初步证明AI Agent的另一条路
市面上的Agent产品主要分为两大方向:通用型和垂直应用型。在通用型Agent中,知名度最高的两款产品分别来自两大模型厂商——OpenAI的"Operator"和Anthropic推出的“Computer Use”,它们无疑是通用型Agent领域的佼佼者。Anthropic的Agent软件通过特殊API,使开发者能够借助Claude模型完成计算机基本的输入、文件打开等任务;而OpenAI则在此基础上进一步扩大了硬件调用范围,允许用户通过API接口在个人电脑上完成编程、旅行预订、购物等一系列操作。国内智谱的AutoGLM在运行模式上与OpenAI的"Operator"有着异曲同工之妙。
至于垂直型Agent,cursor和devin无疑是其中的典型代表。这两款产品在程序员群体中享有良好口碑,但遗憾的是,由于应用领域相对狭窄,难以广泛推广。Manus的创始人肖宏在一则访谈中也坦言,相较于垂直型Agent,通用型Agent无疑具有更广泛的普世价值,尽管垂直型Agent在应用落地方面更为迅速。从实际情况来看,我们身边已有不少程序员朋友开始使用cursor编写基础代码。
Manus定位于一款通用型AI Agent,通过创新的工程手段实现Agent架构的革新,将复杂的工作流程封装于云环境之上,融合多个大模型,并借助任务规划自动完成子节点需求处理,从而能够产出往常需要经过多轮人机对话才能完成的复杂任务。在部分任务上,Manus甚至超越了OpenAI的DeepSearch,展现了Agent领域的另一条可行之路。