专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
后沙月光  ·  美乌黑幕:他俩是如何结下梁子的? ·  昨天  
主编温静  ·  主编温静丨今天发生了什么? ·  3 天前  
CHINADAILY  ·  跑鞋,是越贵越好吗? ·  3 天前  
河南新闻广播  ·  梁东雁接受纪律审查和监察调查 ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

宿敌对决!OpenAI & Anthropic 首席产品官万字访谈:“现在的模型并不是受限于智能水平,而是受限于评估方法”

AI科技大本营  · 公众号  ·  · 2024-11-11 14:28

正文

“主动性”和“异步”是两大关键词。

译 | 王启隆

视频链接 | youtube.com/watch?v=IxkvVZua28k

出品丨AI 科技大本营(ID:rgznai100)

作为世界上最强大的两个 AI 模型背后的产品负责人,是一种什么样的体验?

OpenAI 的产品负责人 Kevin Weil 在最新访谈中吐槽:“ 真希望我能提前 60 天知道要发布什么。 ” 而 Anthropic 的产品负责人 Mike Krieger 在他身旁补充道:“ 以前 每逢苹果 WWDC 开发者大会,我们都会忐忑不安: 苹果推出的新功能会成为新机遇,还是会打乱我们的全盘计划?

2024 年,生成式 AI 的竞争格局愈发清晰:OpenAI 前临 Meta、后逢谷歌,外有国产大模型虎视眈眈,内部还外流了不少员工到初创公司。如今,OpenAI 最强劲的对手莫属 Anthropic,ChatGPT 与 Claude 的角力也进入了白热化阶段。

二者不仅在技术实力、人才储备上势均力敌,在商业化道路上也渐行渐近:比方说,Anthropic 预计 2024 年底的年度经常性收入(ARR)将达到 10 亿美元,这一增长轨迹仅比 OpenAI 晚 18 个月。此外, 就在 Anthropic 推出能像人类一样使用计算机的突破性功能之际,OpenAI 也在加 紧开发新产品,瞄准复杂软件编程任务的自 动化。

近日,两家公司的 首席产品官(CPO) ——OpenAI 的 Kevin Weil 和 Anthropic 的 Mike Krieger 在 Lenny's Podcast 频道与投资人 Sarah Guo 进行了一 场播客访谈进行了一场罕见的对话,涉及了多个引人深思的观点:

  • 关于当前模型的局限性: 现在的模型并不是受限于智能,而是受限于评估。 它们实际上可以做得更多,在更广泛的领域中更加准确。

  • 对产品经理角色的新认知: 到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像研究产品经理,而不是传统的产品经理。 功能质量现在完全取决于你在评估和提示方面的水平。

  • 展望 AI 的未来发展: 主动性和异步是两个关键词。 模型将变得更主动,在你授权的情况下,它会 监控你的邮件,发现有趣的趋势,为你的会议做准备; 同时它也会更异步,可能会说'我需要思考一下,大约一个小时后给你答复'。

  • 对用户适应能力的惊叹: ChatGPT 才发布不到两年,当时刚出来时确实让所有人震惊。但 现在如果要我们回去用最初的版本,大家可能会说'这也太笨了'。 12 个月后,我们可能会说'真难相信我们居然用过那么原始的东西'。

两位产品负责人之间既有竞争关系,又能坦诚交流,这种微妙氛围之下,到底还带来了多少精彩内容呢?CSDN 精编整理了这场对话的全部内容,下文将尽数放出。

AI 产品经理和以往有什么不同?

主持人: 大家好!

Kevin Weil: Sarah,AI 投资领域的女王——(起手就是彩虹屁)

主持人: 请别这么称呼我——不过,很高兴能和你们相聚。我原先给这场对话准备了两个方案:第一个想法是来场产品对决,毕竟你们手里都握着代码发布的最高权限。我本想说:“ 来吧,把未来半年到一年要发布的所有产品都透露出来,管它什么内部规定! ” 第二个方案则是一起重新设计 Instagram,因为 你们两位都是 Instagram 的老员工 。结果这两个提议都被否了。

所以,现在我们只能像朋友间聊天一样随意交流了。虽然内容可能不够劲爆,但我其实特别期待听听你们的想法。对你们来说,现在的职位都算是一个新尝试。Kevin,先从你说起吧。你之前经历过很多不同又有意思的岗位,当你接受这个职位时,身边的人是什么反应?

Kevin Weil: 大家都很兴奋。我觉得这是最有意思、影响力也最大的职位之一。需要搞清楚的事情实在太多了。这也是我做过的 最具挑战性、最让人着迷,也最容易让人失眠的产品岗位 。它既要面对普通产品工作的所有挑战——比如搞清楚产品受众、解决什么问题等等。但最大的不同在于: 通常做产品都是在已知的技术框架下工作,你很清楚手上有什么牌可以打。但在 AI 这个领域,每隔两个月,计算机就会展现出前所未有的新能力。 每当出现新能力,你就得思考它会给产品带来什么变化,而答案往往是“ 影响会非常大 ”。 能在第一线见证AI的发展真的很让人着迷。 反正我是玩得不亦乐乎。

Kevin 的履历:Instagram 产品副总裁、Twitter 产品高级副总裁,现在是 OpenAI 首席产品官

主持人: Mike,你又是怎么看的? 我还记得当时听到你的新闻,第一反应是 Anthropic 居然能说服 Instagram 的创始人去一个已经存在的项目工作。

Mike Krieger: 人们的反应主要有三种:了解我的人会说“ 这很适合你,你一定会玩得开心 ”;普通朋友会说“ 干嘛呢? 你又不是非要工作,为什么要这么做? ”——但熟悉我的人都知道我根本闲不住;第三种是“(Anthropic) 原来还能请到Instagram的创始人 ”,这反应也挺有意思。

说实话,能吸引我的公司可能本来就只有那么几家。所以反应确实因人而异,取决于对我的了解程度,以及是否见过我半退休的状态——那种状态其实也就维持了六周吧,很快我就在琢磨“ 接下来该干点什么 ”了。

Mike 的履历:Instagram 联合创始人 & 首席技术官(CTO),现在是 Anthropic 首席产品官

主持人: 前不久我们一起吃饭的时候,看到你谈起学习企业级产品时那种孩子般的兴奋劲儿,让我印象深刻。 企业级产品的 哪个方面给你带来了最大 的惊喜? 是因为现在服务的不再是普通消费者,还是因为现在到了一个以研究为导向的机构工作?

Mike Krieger: 你提到的这两点确实都很新鲜。我 18 岁时曾经立下一个很“ 少年心性 ”的誓言:每一年都要尝试不同的事情,不要重复前一年的工作。这也是为什么有时候有人说“ 要不要再做个社交 产品 ”时,我会觉得——首先,你的标准可能有点走样了,其次,这感觉太像在重复老路。

企业级产品确实很有意思。比如说, 打造这种产品的反馈周期更像是投资,周期更长。 你可能觉得初次沟通很顺利,对方也很感兴趣,结果发现这还要经过采购流程,可能要半年才能真正部署使用,才知道是否真的合适。所以要适应这种节奏,有时候我会着急“ 这怎么还没上线? ”,然后他们会说“ Mike,你才来两个月,这些东西还在各个副总裁那里 审批呢,慢慢来。

适应这种不同的时间节奏确实需要一段时间。但有趣的是,一旦产品部署完成,你就能和客户直接沟通,打电话问他“ "效果怎么样? 好用吗? ” 而面对普通用户时,你只能做数据分析,看整体情况。虽然也可以找几个用户聊聊,但他们没有足够的利益驱动来告诉你哪里做得不好,哪里做得好。这种差异带来了完全不同但都很有价值的体验。

主持人: Kevin,你之前做过这么多不同类型的产品,以前积累的产品直觉在 AI 领域还管用吗?

Kevin Weil: 关于企业级产品,我还想补充一点。这里面的有趣之处在于, 产品本身并不是全部。 你面对的是决策者,他们有自己的目标。你可能做出了世界上最好的产品,公司里的所有人都愿意用,但这并不一定足够。

最近和一个大客户开会的时候,他们说“ 一切都很好,我们很满意。 但有一个问题:所有新功能都得提前 60 天通知我们。

我当时心想:“ 我自己都不知道 60 天后会发布什么

所以,情况确实很不一样。有趣的是, 在 OpenAI,我们同时在做面向消费者的产品、企业级产品和开发者产品。 所以我们是在同时应对这些不同的场景。

说到直觉,我觉得在大约一半的工作中是管用的。 当你对产品有了清晰认识,比如快要发布高级语音模式或者 Canvas 时,在做最后的调整,理解目标用户和具体问题时,这时候直觉是有用的,因为这更像是常规产品发布的收尾工作。 但这些项目的起始阶段完全是另一回事。

因为,经常会出现一些我们完全没有预料到的能力。当你在训练新模型时,你可能觉得它会具备某种能力,但研究团队也说不准,其实没人能完全确定。 所以这就像在迷雾中摸索,因为这些都是模型涌现出来的特性。你不知道它是否真的能用,也不知道它的表现会是 60% 水平,还是 90% 水平,甚至是能达到 99%。 而当某个功能只有 60% 的成功率时,你要构建的产品就会和 90% 或 99% 成功率时完全不同。 所以你只能等待。

我不知道 Mike 是否也有这种感觉,就是会时不时去找研究团队问问:“ 进展如何? 模型训练得怎么样了? 有什么新发现吗?

然后他们会告诉你: "这是研究工作,我们正在努力。 " 他们自己也在摸索。 我们都在同时探索这些未知领域。 这确实很有趣,因为你是在和团队一起发现新事物,但过程确实充满了不确定性。

Mike Krieger: 这让我回想起在 Instagram 的经历。那时每逢苹果WWDC开发者大会,我们都会忐忑不安:“ 苹果的新功能会成为我们的机遇,还是会打乱我们的全盘计划? 现在在 AI 领域的感觉也差不多,只不过颠覆性的变化不是来自外部,而是来自公司内部的研究突破。 这种体验很特别,每次研究团队有了新进展,我就知道产品路线图又要推倒重来了。

编写评估标准将成为产品经理的一项核心技能

主持人: Kevin 刚刚形容得很生动——“ 在迷雾中窥探新 能力 ”。那么,在你们无法确切预知未来的情况下,还能做规划吗?在发现新功能应该加入产品时,你们的迭代过程是怎样的?

Mike Krieger: 我觉得在智能方面,你能大致看出它的发展方向,从而预见你会想用模型做什么,然后围绕这个开始构建产品。

我们可以从三个方面来看:首先是 智能本身 ,虽然不可完全预测,但至少有一个可以观察的发展轨迹。

其次是 从产品端决定投入的能力 ,并与研究团队一起进行微调。比如开发 Cluade 的 Artifacts 功能时,我们投入了大量时间与研究团队合作—— 我想 OpenAI 的 Canvas 也是一样的流程,对吧?总会有 一个 共同设计、共 同研究、共同微调 的过程。 这也是在这家公司工作、在这里做设计的一大特权。

第三点就是 能力前沿 的突破,对 OpenAI 来说可能是 语音模式 ,对我们来说是刚发布的 计算机使用(Computer Use) 功能,你在设计的时候会想:“ 60% 的成功率? 好吧,可以接受。 所以我们会尽早让设计师参与进来,但要明白的是,这并不是在下一个稳赢的赌注。 研究 的目的是为了通过学习积累经验,而不是每次都要做出完美的可发布产品。 你的成果可能是一些概念验证或者能激发产品想法的信息,而不是一个完全可预期的产品开发过程,不能指望研究一到位就万事大吉了。

Kevin Weil: 研究工作确实很有意思,至少部分研究是非常面向产品的,特别是在 训练 阶段 ,就像 Mike 刚刚所说说的。但有些部分确实更像学术研究。比方说,有时候你会突然听说某个新能力,可能是在开会时偶尔提了一嘴,“ 要是能做到这个就好了。

结果研究团队的人会说,“ 哦,这个我们三个月前就能做到了。

然后我们就会追问,“ 真的吗? 具体是什么情况?

他们会说,“ 我们当时不知道这很重要,所以现在在研究别的东西了。 ” 这种意外惊喜时有发生,这也让我们在投资决策时要多加考虑。

主持人: 如果一个模型在某项任务上的成功率是 60% 而不是 99%,你们觉得这样的模型还能用来做什么?很多任务的成功率确实更接近 60%,但任务本身很重要、很有价值。你们内部是如何评估任务进展的?在决定是靠产品设计来优雅处理失败情况,还是等待模型本身变得更好这个问题上,你们是怎么权衡的?

Kevin Weil: 实际上,即使成功率只有 60%,很多事情也是可以做的。关键是要专门为这种情况设计产品。你需要考虑到人类会更多地参与其中。 比方说 GitHub Copilot,这是第一个让人们意识到 AI 不仅能用于简单问答,还能创造实际经济价值的产品 。我不确定它具体是基于哪个模型构建的,但肯定是好几代之前的版本了。

主持人: 应该是 GPT-2 吧,那可是个相当小的模型。

Kevin Weil: 即便那时的模型在编程相关的任何方面都称不上完美,它依然能创造价值。因为如果它能帮你完成一部分代码,那也是省下了你亲自编写的时间,你可以在它的基础上修改。这种方式是完全可行的,我们会看到类似的情况发生在向智能体和更复杂任务的转变上。 虽然可能做不到完美,但如果能帮你节省 5 到 10 分钟,那也是有价值的。 更重要的是,如果模型能够意识到自己在哪些地方没有把握,能够主动询问“ 这部 分我不太确定,你能帮我确认一下吗 ”,那么人类和模型的配合就能达到远超研究时预计的 60% 效果。

Mike Krieger: 说到这个神奇的 60% 数字——这其实是我刚才随口编的。不过这确实说明了一个问题, 这可能就是 AI 的及格线。 实际上,模型的表现往往是很不均衡的,在某些任务上表现出色,在其他任务上则相对较差。这种特点其实也很有帮助,比如当我们和客户进行试点项目时,经常会在同一天收到截然不同的反馈。

有的客户会说“ 这简直解决了我们所有的问题,我们试了三个月都没解决的事情,现在一下就搞定了 ”,而另一家可能会说“ 差得远了,还不如其他模型好用。 ”这种反差让我们保持谦逊,你可能有自己的内部评估标准,但真正到了实际应用场景,就像你精心设计了产品,放到一个用户面前,突然发现“ 哦,原来是这样 ”。在模型开发中也会遇到类似情况,我们尽可能想要建立可靠的评估机制,但客户有他们自己的数据集、独特的使用方式和特定的提示方法。这就揭示出一个现象: 当产品真正投入使用时,效果往往呈现双峰分布。

Kevin Weil: 不知道你有没有这种感觉, 我觉得现在的模型并不是受限于智能水平,而是受限于评估方法。 它们实际上可以做得更多,在更广泛的领域中表现得更准确。关键是要教会它们,它们已经具备了这样的智能,你需要教它们一些特定领域的知识,这些可能不在它们最初的训练数据中,但只要方法得当,它们是完全可以掌握的。

Mike Krieger: 没错,我们经常遇到这种情况。大约三年前有很多令人兴奋的 AI 部署,现在那些团队会说“ 我们觉得新模型更好,但我们从没做过正式评估,因为那时候我们只顾着发布炫酷的 AI 功能了。 ” 最难的部分是要让人们退后一步,思考“ 什么样的结果才算成功? 你究竟想解决什么问题? 而且通常到这种时候,产品经理已经换人了。 然后新接手的人需要重新思考:“ 这个功能究竟应该是什么样子? 让我们设计一些评估标准。

我们的经验是,Claude 其实很擅长编写评估标准,也能胜任评分工作。 这样我们就能自动化很多评估工作,但前提是你得先明确什么样的结果才算成功。 然后我们就可以一起迭代改进。 往往这就是把任务从 60% 提升到 85% 成功率的关键。

顺便说一句,如果你来 Anthropic 面试——也许你应该来看看,也许你对现在的工作很满意,但没关系,我就是提一嘴( 现场挖人 )——你会发现我们面试流程中有一个环节就是让候选人把一个粗糙的评估提示改进成高质量的版本,我们想看到你的思考过程。 但市面上具备这种能力的人才还很缺乏。 如果说有什么是我们最想教给别人的,可能就是这个。

Kevin Weil: 是的, 编写评估标准。我觉得这将成为产品经理的一项核心技能。

Mike Krieger: 说点内部的有趣变化吧,可能有点像是在讲八卦。我们内部有专门负责模型能力和开发的研究产品经理,也有负责产品界面的产品经理和 API 产品经理。但我们最终意识到, 到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像前者而不是后者。

比如我们最近发布了代码分析功能,现在 Claude 可以分析 CSV 文件并为你生成代码。 产品经理可能完成了 80% 的工作,然后不得不把项目交给那些懂得如何编写评估标准、进行模型微调和优化提示词的产品经理。 我们发现这其实就是同一个角色,因为 你的功能质量现在完全取决于你在评估和提示方面的水平 所以产品经理这个角色的定义正在发生融合。

Kevin Weil: 确实如此。我们也专门设置了一个训练营,让每个产品经理都学习如何编写评估标准,理解好的和差的评估之间的区别。当然我们还在不断完善这个过程,需要持续迭代和改进,但这确实是开发优质 AI 产品的关键所在。

主持人: 对于那些想在 AI 产品开发领域发展的人来说,我们显然没法都去参加你们的训练营。那么这些人该如何培养对评估和迭代循环的直觉呢?

Kevin Weil: 我觉得实际上可以通过使用模型本身来学习,就像你说的,你可以问模型“ 什么是好的评估标准? ” 给它一个具体场景,让它帮你写一个样例评估,它往往能给出相当不错的建议。

Mike Krieger: 没错,这确实很有帮助。还有一点,如果你听听 Andrej Karpathy 以及其他在这个领域深耕多年的专家们的建议, 没有什么比深入研究数据更重要。

人们经常会陷入这样的思维定式:“ 根据这些评估标准,新模型只是从 78% 提高到了 80%,甚至性能下降了,所以不值得迭代 ”。这时我会说:“ 我们能具体看看它在哪些案例中表现不好吗? ” 然后才有可能会发现另一种情况,即实际上新版本更好,只是评分标准还不够准确。

让我说点 Anthropic 内部的趣事。我们每个模型发布时都会有模型卡片,而看这些评估结果时,我们有时会想“ 这个答案可能不太符合人类的表达方式 ”或者“ 数学计算似乎有点问题 ”。想要在评估中得到 100 分真的很难,因为评分本身就是个很有挑战性的工作。所以我建议大家要去看看实际的回答,即便是样例也要认真分析“ 也许我们应该调整评估标准 ”或者“ 虽然评估标准很严格,但整体感觉还不错 ”。深入了解数据、真正掌握数据的本质,这一点至关重要。

Kevin Weil: 随着我们向更复杂的任务和智能体方向发展,这个问题会变得更有意思。比方说,假如有一个评估测试的内容是“ 我给你一个数学题,你能准确计算四位数的加法 ”,人类评审员很容易判断对错。但当模型开始处理更长篇、更模糊的任务,比如“ 帮我在纽约订一个酒店 ”,那什么才算是正确答案?这个问题很大程度上需要考虑个性化因素。如果你让两个完全称职的人来完成这个任务,他们很可能会给出不同的答案。所以评分标准必须变得更加灵活。

Mike Krieger: 我想我们两家实验室对 AI 能力的发展 都有类似的认识框架。 就像职业发展一样,随着时间推移,模型能承担的任务越来越复杂,周期越来越长。 评估标准也需要像绩效考核那样演进 ——最近公司正在做绩效考核,所以我不自觉地会用这个比喻——我们不能再用简单的对错来评判模型了。 AI 达到了称职员工的水平吗? 完成任务的速度超出预期了吗? 它能发现一些我们都不知道的新东西吗? 评估标准需要更全面,就像我们评价一个人的表现一样。

Kevin Weil: 更别提这些评估标准都是由人来制定的。 而模型已经达到了这样一个水平: 在某些任务上经常能胜过人类。 人们有时候会更喜欢模型给出的答案,而不是人类的回答。

颠覆我们过去 25 年使用计算机养成的习惯

主持人: 说得好。那看来评估能力确实是关键。除了要花时间研究这些模型、学习编写评估标准之外,你觉得产品人员现在还需要培养哪些技能?你们都在这条学习曲线上,有什么经验可以分享?

Mike Krieger: 我觉得一个被低估的技能是 用这些模型来做原型设计 。我们最优秀的产品经理就是这么做的:当我们陷入关于 UI 设计方案的漫长讨论时,在设计师还没来得及打开 Figma(一款 UI 设计协作工具)之前,我们的产品经理或工程师就会说:“ 已经让 Claude 生成了这两种 UI 方案的对比,我们先来看看效果。 ” 我觉得这种提前设计原型的方式很棒,然后我们会基于此就能继续深入探讨,从而能比以前更快地尝试更多可能性并进行评估。所以, 掌握如何使用 AI 工具来快速制作原型 ,我认为这是一项非常重要的技能。

Kevin Weil: 说得对。我还觉得,这也会 推动产品经理更深入地了解技术细节 。这种情况可能会随着时间而改变,就像如果你在 2005 年做数据库技术,可能需要以完全不同的方式深入理解技术细节,而不像现在做数据库技术那样,已经有了很多抽象层,你可能不需要了解所有底层原理。当然不是说每个产品经理都要成为研究员,但是对技术有基本的认识,花时间学习这个领域的术语,对这些技术的工作原理建立直觉,我觉得这些都会带来很大帮助。

Mike Krieger: 还有一个重要的方面是,当你在处理一个随机的、不确定的系统 ,评估标准只是我们最好的尝试。但在一个你无法完全控制模型输出的世界里做产品设计时,你需要考虑:怎样设计反馈机制来形成闭环?如何判断模型是否偏离了正确方向?如何快速收集用户反馈?应该设置什么样的安全护栏?如何了解它在整体层面的表现?这变成了一个需要理解智能体在众多用户、大量输出中的整体表现的问题,需要产品经理掌握完全不同的技能。这不像传统的“ 点击按钮没法关注用户 ”这类容易界定的问题。

Kevin Weil: 没错。也许五年后当人们都习惯了这种模式,情况会有所不同。但我觉得我们现在都还在适应这种非确定性的用户界面。当然,不是指在座的技术从业者,你们都在研究技术产品,而是那些使用 AI 的普通用户,他们肯定还不习惯。 这完全颠覆了我们过去 25 年使用计算机养成的习惯。 通常情况下,相同的输入会得到相同的输出,但现在不是这样了。这不仅需要我们在构建产品时适应,还要站在用户的角度思考这意味着什么。这里面既有挑战,也有独特的优势。所以思考如何利用这些特点变得很有趣。

Mike Krieger: 我想起在 Instagram 工作时期,我们会持续进行用户研究。每周邀请不同的用户来,只要有新原型就让他们试用。在 Anthropic 我们也在做类似的事情。但有趣的是,以前在用户研究中让我感到惊讶的是用户如何使用 Instagram,他们的使用场景或对新功能的反应。而现在,一半的惊喜来自用户的反应,另一半来自模型在特定场景下的表现。有时你会感到欣慰:“ 太好了,它(AI)理解得很准确! ” 这几乎会让我们产生一种自豪感,尤其是在用户研究环境中看到它反应得当的时候。当然也会有挫折感,比如“ 糟糕,它完全理解错了用户意图,现在已经说了十页无关的内容了。 ” 这也是一个学习放手的过程,要接受在这种环境中各种意外情况的发生。

主持人: 你们都曾经负责过那些迅速教会数亿人新行为模式的消费者产品。而现在这些 AI 产品的发展速度似乎比那还要快,对吧?如果连产品经理和技术人员对如何使用它们都没有太多直觉,你们是如何在当前的规模上教育最终用户使用这些反直觉的产品的?

Kevin Weil: 说到这个,人类适应新事物的速度真的很神奇。前几天我和人聊天,他们在讲第一次乘坐 Waymo(无人驾驶出租车)的体验。 他们最开始 30 秒还在担心:“ 天哪,小心那个骑 自行车的 5 分钟后就开始感叹, 哇,我真的在体验未来。 再过 1 0 分钟,他们 就已经在车里百无聊赖地刷手机了。

看看我们适应新技术的速度有多快。 明明那些东西放在以前就像魔法一样。 ChatGPT 才发布不到两年,刚出来的时候确实让所有人都震惊了。但 现在如果让我们回去用最初的版本,应该是 GPT-3.5 吧——

主持人: 那简直是噩梦。

Kevin Weil: 对,现在让所有人去用 GPT-3.5 都会说:“ 这也太笨了吧! ” 所以 你看,我们现在正在开发的东西,还有 Mike 你们正在开发的东西,现在看起来都像魔法一样神奇。 但 12 个月后,我们可能会说“ 真难相信我们居然用过那么原始的东西。 ” 迭代的速度 就是这么快, 但最让我惊讶的是人们适应的速度。 虽然我们一直在努力帮助用户跟上发展,但实际上人们也充满热情,他们理解世界正在朝这个方向发展。 我们要做的是确保这个转变尽可能顺利地进行。

Mike Krieger: 我们正在改进的一个方面是 让产品本身具有教育功能 ,这听起来很直白。 我们之前没这么做过,但现在我们想让 Claude 更多地了解自己。 它的训练数据中已经包含了“Claude 是 Anthropic 开发的 AI ”这样的基本信息。 但现在我们会直接告诉它最近 新发布的功能以及使用方法 ,因为用户经常会问这个问题。 这也是来自用户研究的发现,他们会问“ 这个功能怎么用? 然后 Claude 会说,“ 我不知道,你可以去网上搜索看看? ——这显然一点帮助都没有。 所以我们现在真的在努力让它掌握最新版本信息,让它了解自己都会什么。

这是一个正在改进的过程。 但看到现在的效果很令人振奋,比如它能给出具体的 文档链接,告诉你“ 具体是这样操作的 ,“ 我来一步步帮你 ,“这里可能需要调用 Artifacts 窗口,我来帮你解决 这些系统实际上很擅长解决 UI 问题和用户困惑。

注:笔者经常用 Claude,所以对这段非常有共鸣。以前如果想让 Claude 调用 Artifacts 窗口,它根本不能理解命令。但现在可以让 Claude 在任意场合调用任意数量的 Artifacts,不仅提升了体验,还改变了我的使用习惯。

让 LLMs 模仿人类的思维

主持人: 在企业环境中推动变革管理时,情况会有所不同,因为企业已经有既定的工作方式和组织流程。那么你们是如何帮助整个组织理解这些提升生产力的改进,以及可能带来的其他变化呢?

Mike Krieger: 企业市场确实很有趣。即便一些产品已经拥有数百万用户,但其中的重度用户主要还是那些热爱技术的早期采用者,其他则是长尾用户。但当你进入企业环境,你需要为整个组织部署产品,而这个组织中往往有大量非技术人员。我认为这其实很棒,因为你可以看到技术基础并不扎实的用户第一次接触基于聊天的大语言模型,同时你也有机会组织培训课程,提供教育资料。我觉得我们需要从这些经验中吸取教训,思考如何教育下一个亿级的用户使用这些界面。







请到「今天看啥」查看全文


推荐文章
主编温静  ·  主编温静丨今天发生了什么?
3 天前
CHINADAILY  ·  跑鞋,是越贵越好吗?
3 天前
河南新闻广播  ·  梁东雁接受纪律审查和监察调查
3 天前
懒人医学考试中心  ·  【护士】一天提高100分—开启洪荒之力
7 年前
IT时代网  ·  崔永元,我真不配吃你的鸡
7 年前