专栏名称: Web3天空之城
美好, 有趣的, 值得铭记的
目录
相关文章推荐
人工智能那点事  ·  唐尚珺的大学室友全部申请搬离宿舍?最新回应→ ·  2 天前  
新浪科技  ·  【最新文件披露#贾跃亭涨薪超50%# ... ·  3 天前  
宝玉xp  ·  //@出版人周筠:了不起//@东东枪://@ ... ·  5 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20240 ... ·  6 天前  
51好读  ›  专栏  ›  Web3天空之城

一个关于AI程序员的未来 | Cognition创始人Scott Wu访谈及问答录(附视频)

Web3天空之城  · 公众号  · 科技媒体 AI  · 2024-09-03 19:53

正文

未经许可不得转载,务必保留原文出处链接和公众号按钮

(关注本城公众号并设为星🌟标,

第一时间获取世界顶级商业科技认知)

文:天空之城·城主

‘AI程序员’公司Cognition的创始人Scott Wu是一位从国际信息学奥林匹克竞赛选手蜕变为硅谷炙手可热的AI创业者。

Devin是Cognition AI推出的全球首个AI程序员,号称掌握全栈技能、自学新技术、构建和部署应用程序、自主查找并修复Bug、训练和微调自己的AI模型等多项能力。

最近Devin开始有竞争对手出现,这些AI编程助手正在悄然改变软件开发的格局。在这次最新的访谈中,Scott不仅分享了他对AI技术未来的独特洞见,还坦诚地讲述了创业路上的挑战与收获。

城主注:之前Devin有一次公关风波, 有油管博主宣称Devin视频造假,后来不了了之,但从这次的访谈来看,Scott是言之有物有思考干货的。

B站传送:【精校】一个关于AI程序员的未来 | Cognition创始人Scott WU 八月访谈-哔哩哔哩】 

https://b23.tv/E44WfYj


AI编程助手Devin的突破性进展:

Scott详细介绍了Devin的独特之处。不同于传统的代码补全工具,Devin是一个真正的"数字助手"。它不仅能编写代码,还能浏览网页、运行命令,甚至进行复杂的决策。Scott分享了Devin成功处理航班退款等实际案例,展示了AI在日常生活中的应用潜力。Devin的全方位能力使其在竞争激烈的AI编程工具市场中脱颖而出,代表了AI辅助编程的新方向。

软件工程的未来图景:

Scott对软件工程的未来提出了颠覆性观点。他预测未来的软件工程师角色将更接近于产品经理和技术架构师的结合体。工程师们将专注于问题分解、需求分析和高层设计,而将繁琐的编码工作交给AI完成。这不仅提高了效率,还让工程师们能够处理更具创造性和战略性的任务。Scott甚至预言,未来的代码可能会像快餐一样"用完即弃",这一大胆观点反映了AI时代软件开发可能面临的巨大变革。

AI创业的独特挑战与机遇:

Scott深入探讨了AI创业与传统科技创业的区别。他指出,AI领域的快速发展要求创业者具备更强的前瞻性和适应能力。创业者需要在技术尚未成熟时就做出押注,这增加了决策的难度和风险。Scott强调了在这个领域保持长期乐观但短期警惕的重要性,以及不断挑战自身假设的必要性。他还分享了如何在瞬息万变的环境中坚持愿景,同时保持灵活性的经验,为有志于AI创业的读者提供了宝贵指导。

产品市场匹配与客户开发策略:

Scott分享了Cognition寻找产品市场匹配的经验。他们采用的策略是从解决团队内部实际问题开始,如使用Devin设置MongoDB。这种方法不仅验证了产品的实用性,还帮助团队快速迭代改进。在客户开发方面,Scott强调了找到正确切入点的重要性。他们发现Devin在处理重复性强、工程师不愿做的任务(如大规模代码迁移)时特别有优势,这为产品找到了明确的市场定位。Scott还讨论了如何在组织中自上而下和自下而上地推广AI技术,以及如何处理预算和ROI等实际问题。

AI伦理与未来展望:

Scott对AI的未来发展持谨慎乐观态度。他认为,相比追求通用人工智能(AGI),更重要的是关注AI如何解决实际问题,改善人们的日常生活。在代码质量和伦理问题上,Scott提出了有趣的观点。他认为,随着AI生成的代码越来越多,未来可能更多地从逻辑和功能的角度而非代码本身来评判软件质量。同时,他强调了保持人类监督和责任制的重要性,如通过代码审查来维护质量标准。Scott还探讨了AI在推理能力方面的进展,以及这些进展如何影响未来的问题解决方式。


=Web3天空之城全文整理版=


主持人:

我非常激动地欢迎Scott重返SPC。Scott显然是Cognition的联合创始人兼首席执行官,他们正在打造惊人的产品。但Scott也是SPC最早的OG成员之一,早在2017年、2018年就加入了我们。因此,能够再次欢迎他回来真是太好了,我们可以直接进入正题。

Scott:

非常感谢你们的邀请,很荣幸能够再次来到这里,感觉非常好。自从我上次来SPC已经七年了。


主持人:

初创公司的时间观是相对论式的,即当下的时间流逝得非常快,但与此同时,日常发生的事情很多,所以时间似乎又流逝得非常慢。你对时间的心理模型会有些偏差,既快又慢。

Scott,为什么不告诉我们一件你认为被世人严重低估的事情?

Scott:

实际上,成长过程中我非常喜欢数学和编程比赛,这几乎构成了我的整个背景。我参加了数学竞赛、编程竞赛。如果你们听说过的话,我还参加了国际信息学奥林匹克竞赛(IOI)。所以我想很多我的思维框架总是基于数学以及类似数学谜题的东西来描述的。即使是我们做销售或制定产品策略的时候,在我脑海里,实际上都像是在做数学题。


主持人:

那么你觉得也许可以再深入探讨一下这个问题吗?你认为这种数学背景是否意味着你在处理一些通常不被认为是数学的事情时,实际上采取了更分析或数学的方法,比如销售成交的概率、实际在某个电话上做期望值计算等?

Scott:

是的,在电话上做期望值计算之类的事情。我最近一直在思考的一个趋势,我几乎可以描述为一切的“金钱球化”。显然,《点球成金》这个理念是指,随着时间的推移,体育运动变得更加数据化,因为你可以计算出你三分球射门的期望值。以下是这个策略或那个策略的预期价值,并在各个方面进行分析和分解。

我实际上认为同样的事情也在创业公司中发生。我认为很多人们所认为的那种硅谷的起源故事中的人物性格,这些人显然是非常有才华的技术人员,但他们也都是非常原始并且极富想象力的思考者,就像史蒂夫·乔布斯那样的人,他们真正抓住了人们的想象力。而且我认为随着时间的推移,在过去的几十年里,创始人已经更多地朝着“点球成金”的方向发展。这些创始人非常具有分析能力,他们会分解每种情况并找出最佳策略。


主持人:

我认为你绝对是对的,如今创办一家公司的方法论比二十年前更容易理解。而且你实际上可以通过那种确切的路径,比如说创业的黑暗森林,来绘制出一条更优化的路线。

Scott:

随着很多领域逐渐变得更加成熟和完备,这是一个常见的现象。我最喜欢的一个例子是扑克,大约30年前,你会看到像Daniel Negreanu、Phil Hummuth、Scotty Wynn这样的人,他们有非常鲜明的个性,对于游戏有一种直觉般的感觉。现在所有的职业选手就像数学宅男一样。


主持人:

有时你会看到像斯蒂芬·库里这样的人,他几乎是在投月球球来赢得奥运金牌。所以,把一切都钱球化有点奇怪。

你认为你的超级能力是什么?

Scott:

我不认为有特别显著的东西。不过如果必须选一项的话,我会说,就是能够把每个情况分解成逻辑推理,并且知道如何应用逻辑原则。我认为在创业的过程中有很多方面,特别是当你显然在尝试做一些前人未曾做过的事情时。所以你可以学习已有的操作手册等,但你总是需要从基本原理出发,做出自己的决策。


主持人:

顺便说一下,这些都是创始人奖学金面试的问题。我们正处于创始人奖学金面试季节的高潮。所以我第一个问题都是我在创始人奖学金面试中提问的问题。下一个问题是,你对未来有什么异端的看法?

Scott:

这是个有趣的问题。让我想一下。我认为在人工智能(AI)方面,有一个问题可能是每次AI对话中都会首先被问到的问题,那就是:你的AGI(通用人工智能)时间表是什么?而我要给出的异端观点是,我不确定AGI时间表实际上是否真的重要。

显然有很多关于人工智能实际能力的讨论,比如说,当它解决这个非常难的数学问题时会发生什么,这显然是非常酷的东西。但我认为实际上,会有一个更平滑的人工智能普及和实际广泛使用的曲线,遍及全球。我们正在做的很多工作,显然是弄清楚如何让人工智能实际应用于现实世界的用例,并且改变经济和人们的日常生活。

在某些方面,人工智能的进步显然是伟大的,但这几乎是一个略有不同的衡量标准。世界上可以广泛采用生成式人工智能,而不一定需要通用人工智能(AGI)。你也可以有一个理论上的AGI,而不一定需要广泛的应用。这就是我一直在思考的问题。


主持人:

如果你读了很多科幻小说,思考AGI基本上就像在思考奇点一样。在大多数科幻书籍中,一旦你接近奇点的事件视界,你甚至都不知道,因为它发生得非常快,就像最后的30-40%。对我来说,如果我们达到了那一点,那就太好了,我们将作为一个上传到云端的社会意识存在。

回到AI领域,我认为对于Devin来说,这是第一次让我们许多人充满想象力的AI代理实际应用。这是我们第一次看到一个演示,然后我们有种“我明白了”的感觉。这不仅展示了编程的未来样貌,还展示了代理的应用前景。事实上,我认为在你们推出Devin之后,至少有五六家公司来找我说,他们正在打造X领域的Devin。所以在某种程度上,我觉得你是在探索什么是“AI优先”应用公司的最前沿。

你认为与过去十年你见过的所有公司相比,拥有一家AI公司有什么相似之处和不同之处?

Scott:

非常感谢你的客气话。老实说,我真的认为我们实际上还在非常早期的阶段。还有很多工作要做,还有很多东西要构建。相似之处在于,很多公司建设的核心原则是相同的,比如如何找到一个真正出色的团队,专注于构建人们想要的东西,弄清楚如何分发和增长你的产品,总体来说,成为一个善于从第一性原理思考的好手。

有几件事情是不一样的。过去大多数公司可以说是由某种技术变革所驱动的。有整个消费者社交时代、移动时代和互联网时代,这些都催生了许多新业务。我认为AI的独特之处在于,它更像是一个不断增加的序列步骤,而不是一个单一的二进制变化。

这有几个含义。首先,你需要做出更多涉及技术方面的决定,关于什么是实际可行的或者未来可能实现什么。所以一个值得思考的问题是,现在人们有手机,他们可能会越来越多地拥有手机,现在人们更多地使用手机,我们应该为他们开发哪些伟大的产品?在AI方面,有一种不同的模式,现在的技术水平不断提升,我们对未来的变化进行了预测。你在产品策略上的所有决定,如何与客户合作,甚至公司的基本决策,都要充分利用这一点。我认为,现在成为一个技术性创始人比以往任何时候都要好,因为不仅你在构建的产品是技术性的,你所做的所有决策也是高度技术性的。


主持人:

让我们深入探讨一下这个问题。如果我没理解错的话,你的意思是,相对于五年前构建一个经典的云SaaS公司,当时的底层技术已经被很好地理解,虽然并不是一成不变,但在你构建公司的过程中并没有完全改变。而今天构建一个AI公司,意味着你必须在某些方面坚定地押注技术在12、8、24、36个月后的发展方向,并且以一种以前我们作为行业并不需要的方式倒推过来。

Scott:

对于很多其他的浪潮,你能够看到将会发生的进展。云计算的采用会大幅增加,将会有更多的人可以访问互联网,诸如此类的事。但核心技术虽然不是完全静态的,至少是相对可预测的。然而在这里,你正在对技术的发展以及前沿状态进行一个相当具体的预测。


主持人:

这有点疯狂,因为我自己在这个行业已经20年了。每次平台转移或技术赋能的进展相比AI领域还是要慢很多。用一个参考点来说,ChatGPT到现在也不过才20个月,这20个月很有趣。我们已经看到了这些基础模型的连续几代出现,可能有数百甚至数千家公司进入了这个领域。所以事情发展得快得多。

如果您在经营一家公司,而周围环境一直在变化,您如何既保持对愿景的坚定信念,又能够在某种程度上与生态系统保持动态协调?

Scott:

作为一个创始人,最重要的事情之一是对自己非常诚实,关于什么在起作用,什么不起作用。创始人有一种近乎固定的模式,对于现状的不受限制的乐观态度,你需要对长期持有乐观看法。但实际上几乎相反,你在短期内必须非常警惕。在人工智能领域尤其如此,因为你应该预料到会有惊讶,而且会有相当大的惊讶,考虑到行业内每个人的发展速度有多快,即使这是你的领域,这在硬件中发生,这在机器人技术中发生,这在基础模型中发生,每个其他领域进展同样迅速,正因为如此,地基在你脚下移动是很容易的。

所以,你要随时准备挑战自己的假设,并且随时准备快速行动。初创公司的最大优势就是它们能够适应和快速行动,所以你真的必须利用这一点。也许我们可以深入探讨一下这一部分。


主持人:

你如何描述你对前沿基础模型在未来6到12个月的展望?相比之下,比如说,八个月前,每个人都沉迷于OpenAI的GPT-4模型。但今天,Llama和Anthropic的模型似乎也同样出色。即使在过去的八个月中,市场也发生了变化。你认为我们正进入一个类似于商品化的阶段,有三四个大致相当的模型?也许它们有各自的专门用途,在不同的方面都很擅长。你怎么看待这个生态系统的发展?

Scott:

我认为“商品”这个词有点带有偏见,我自己不太喜欢这个词。在我看来,最接近的比较实际上是今天的云服务,例如,亚马逊、谷歌和微软显然是这些大型云服务商。在某些方面,这需要大量的资本支出。这些公司正在投入越来越多的钱到这些广义的基础模型中,规模经济巨大。通过真正优化事物和差异化的优势,可以获得很多收益。我认为最终会达到一种平衡状态,有少数几个玩家,大概两三个、四五个左右。

是的,他们提供这些服务。但与此同时,我不会称它为商品,因为云服务是世界上最好的业务之一。它们从某种意义上来说是商品,因为它们都是数百亿美元的业务,毛利率超过50%。这是一个非常棒的商品。因此,我认为这种情况会演变成这样:会有一些巨大的平台公司做得非常好,然后会有很多可以在其平台上构建的应用程序。


主持人:

继续沿着这个话题,你怎么看待这些最先进模型的扩展边界?我意识到你有另一个关于6到12个月的前瞻性问题。

Scott:

我认为还有很多可挖掘的潜力,这将继续下去。现在有前所未有的大量资本投入,这是令人惊叹的。

有几个广泛的领域,其中一个是推理,特别是取得了很大的进展。很多实验室都在这方面投入了真正的精力。ChatGPT的最初发布最令人惊叹的事情是它能够像人类一样对话。现在我们看到很多系统基本上具备了像人类一样思考和评估选项的能力,这是一个相当大的变化。显然,例如,用AI获得IMO银牌的公告,以及其他许多进展正在发生。

主持人:这让你感觉如何,Scott?

Scott:

真是太棒了,伙计。这就像是,10年前,这几乎是我的全部生活。这几乎是我唯一关心的事情,基本上就是在所有事情上取得最高的位置。


主持人:

你看到了那个成就吗?因为我有点看了看那些解决方案。我不是一个数学家,所以我觉得它看起来很酷。但是从你的角度来看,这感觉像是一个开创性的成就吗?

Scott:

我也尝试了解决这些问题。是的,它们真的很难。我会说这真的是不可思议的东西。我想提到的一件事是,Google使用了完全形式化的技术,使用了一种叫做Lean的编程语言,这实际上允许你编写正式的数学证明。我认为在使用非正式技术方面也有很多有趣的进展。而且,使用非正式技术的自然结果,可能是你会获得这种更具普遍性的推理能力,在其中你可以用普通英语思考和交谈,并实际应用逻辑。但是不,那真的是不可思议。


主持人:

是的,太棒了。

所以在我们具体进入软件工程和人工智能领域之前,还有关于AI领域的最后一个问题,关于你的建议。你像是最后六到八个月有一个公众发布,那么你会给人们什么建议?听众中有很多人正在建立AI公司。如何像发布一个出色的AI产品一样做好准备?

Scott:

是的,老实说,很难说这是有意为之的。我觉得有点好笑,因为我们实际上在准备这次发布,我们接受了彭博社的采访,一切都计划好了。然后那个周末,我们实际上把整个视频废弃了,然后重新开始。我们当时想,其实我们不喜欢这个,还是试试别的吧。原定周二早上6点发布那篇文章。实际上我们在周二凌晨1点时还没有拍完视频。所以我们基本上一整个晚上都在忙。我们请他们尽量在稍晚一点的时候推送文章。然后他们最终给了我们上午9点的时间,而不是上午6点,其实我们确实需要那三个小时。

但是,是的,没有,就是很多最后一刻的工作,基本上就像这样,发布博客文章,制作视频,展示Devin的所有示例运行。这真的是一个非常非常最后一分钟的安排。我的主要建议可能就是思考一下,是什么让你自己的公司和产品如此独特。像我们之前的视频让我们不喜欢的地方是...你可以想象其他产品或公司也有一个看起来非常相似的视频。然而,我认为最终的效果是,我们基本上只是展示产品的外观及其应用方式,然后进行阐述。我觉得结果反而更好,尽管这种格式显然要少很多。


主持人:

所以我的总体反馈是,总是在发布前六小时丢掉你不喜欢的东西,然后直接现场来。就这么干吧。

Scott:

对。好的,我喜欢这个。

主持人:

接下来谈谈人工智能和软件工程的未来。我认为,很明显,人工智能会从根本上重塑许多行业,尤其是会改变软件工程的工作方式。我对我们将能够编写的大量代码感到兴奋和乐观,但也有很多恐惧,比如,这对我们曾经做的工作的意义是什么?它们会发生变化吗?它们不会消失吗?它们会如何演变?

对,所以我很好奇,如果你能谈谈你从你的角度看,软件工程的未来是什么样子的?

Scott:

是的,是的。这很棒,因为我们实际上在构建Devin时一直在使用Devin。像Devin已经为我们构建了很多前端,很多API的集成,我们自己的很多仪表盘和跟踪系统,都是由Devin构建的。

我认为,看我们的工作流程是如何变化的,确实很有趣。我完全同意,这里面有很多兴奋感,也有很多恐惧。我觉得有一点可能被低估了,那就是需要编写的代码量大增,这是我想表达的。

从一个高层次来看,过去的40年里,软件基本上一直是全球进步的主要驱动力,而且我们基本上将越来越多的东西放到代码中去。尽管如此,我们的工程师数量仍然远远少于需求量,基本上一直都是这样。每个公司都有30个项目,他们的团队想做,然后他们最终只选了4个。

还有更多东西可以构建。即便是我认为还有超出这范围的东西,像是那些即便是在经济上可行的一次性软件。即使你只是说,好吧,今天我要点开所有这些LinkedIn资料来看看,然后我要去设置这个东西,再去订购那个东西。所有这些事情可以用代码来完成。在某种程度上,它们通过代码完成可能会更有效率,但显然,不值得花钱去让某人为只运行你特定使用情况而编写这些代码。

因此,我认为因为所有这些原因,总体来说对代码的需求大约是供给的10倍多,甚至更多。我觉得还有另一点是,当我们使用Devin时,我们总是会有这种感觉。Devin不会告诉你该构建什么,也不会做那些决定。

我认为实际上会发生的是,软件工程师的数量会更多,而不是更少。就像我们从汇编语言到C再到Python一样,工程师的数量变多了,而不是减少了。

我们的工作类型,或者说我们作为工程师每天的工作内容,会有一些变化。它几乎会变得更像是在产品经理和技术架构师之间的角色。比如你拿到一个问题,然后开始真正地分解问题,弄清楚需要构建什么,了解所有的细节和边界情况以及所有的流程,然后确定你正在尝试为此解决的具体方案是什么。一旦你能够非常精确地描述它,你交给代理,它就会为你构建所有内容。

最终的结果是,你能够构建更多的东西,这是一个非常棒的结果。


主持人:

现在我们对待代码就像对待非常珍贵的东西一样。就好像,哇,你有了这段代码,然后在上线之前,确保至少有三个人审核过它,而且每个人都会确保这件极其重要的事情是正确的。一旦它投入生产,仍然像一个需要呵护并确保它运行良好和健康的东西来对待。

我想,为什么我们不写一大堆代码然后丢掉呢?因为现在这样做太贵了。

我个人认为,人类想要写的代码量是我们今天能生产的代码量的百倍。我希望有一个世界,我们所有人可以产生大量代码,并且希望可以丢掉其中的99%。它不需要CI/CD,不需要维护,你不喜欢生成的第一个版本代码,就再生成10个吧,可能其中一个有效。而今天你是做不到这一点的,无论你是多么优秀的工程师。我认为未来这种情况会有所改变。

Scott:

我认为这一步可能会比其他一些步骤要大,但我总是在想这些其他事情。你可以想象一个在1950年代使用打孔卡编程的人像我们展示今天用Python所做的事情。他们基本上会说,哇,你可以直接用英语告诉计算机你想要什么,然后它就能实现。我认为这就是代码发展的轨迹。我认为我们会让这一过程变得越来越简单。


主持人:

自从Devin发布以来,已经有太多公司正在采取某种方式进行代码生成,要么是采用copilot的方法,要么是代理的方法。

你怎么看待这个领域呢?显然这是一个拥挤的领域。你是如何在这片黑暗森林中找到自己的路的呢?

Scott:

我真的觉得这真的很棒。代码中有很多工作要做,而且有很多人在做很棒的事情。看到现在有这么多人真正意识到这个领域还有更多的潜力,真的很棒。

从一开始,我们的看法一直是,在过去两三年里,出现了一波聊天机器人风格的产品。基本上,你把前缀输入到模型中,然后模型生成文本的后缀,再基于此开发产品。几乎所有行业中的产品浪潮都是这样的,ChatGPT 本身显然也是如此。有很多问答类型的产品,还有营销文案、客户支持、GitHub Copilot,这些基本上都是你给出一个前缀,然后它会输出一个后缀。

这很合理,因为这是语言模型的本地接口。但如果你考虑我们作为人类所解决的问题和从事的工作,随着时间的推移,不仅仅是一个聊天机器人,还会有一个实际的决策者,这将具有巨大的价值。有一个可以交谈的法律助理很酷,但如果你有一个律师呢?同样的事情在很多地方都在发生。所以,这就是为什么我们从一开始就对构建智能代理感到如此兴奋。我们真的认为将会有一波新的自主决策者的出现,这就是我认为Devin与众不同的地方。


主持人:

你怎么看代码与动作的区别?如果我要问一个更抽象的问题,你觉得这只是代码生成的过程,随着我们逐步弄清楚如何让这些AI系统在某些方面能够进行推理?还是你认为这个AI也有无代码的版本?

Scott:

是的,没错。Devin例如能够浏览网页,运行命令,存储机密信息。因此,基于所有这些功能,它显然能够计划和做出决策,并优化多步骤过程。因为这个原因,我们发现有很多这种用例根本不是编码类的。人们经常让Devin做一些事情,比如:“你可以去这个网站,谷歌一下这个会议名单上的每个人的名字,并告诉我一点关于他们的信息,这样我就可以做好准备了吗?”或者,“这是我的信用卡,你能不能去Amazon上帮我下个订单?”确实,看到这些挺酷的,但这不是我们的重点。我们的重点完全在软件上。

不过,我确实认为,高层次来看,很多事情与能否解决规划、推理和多步骤决策密切相关,以及你能否提供与世界互动并执行这些任务的工具。


主持人:

所以我要问一个问题,你已经打开了这个话题。在构建Devin的过程中,你是否发现了一些更普遍适用的方法,比如你提到的那些,计划、推理、排序、协调等等?

Scott:

是的,我认为有。全球来看,逻辑就是逻辑,所以,能够推理并计划和执行计划,在某一个领域往往能很好地推广,特别是如果你用来做这些事情的工具实际上是相同的工具。是的,我们已经看到了一些总体的进步。一个简单的例子是,让Devin更好地使用其浏览器,并围绕这一点做出决定,实际上提高了它在其他方面做出决定的能力,比如测试或调试等。这确实很有趣。

看到这些进展真的很棒。老实说,看到很多其他人也在这个领域工作,真的让人惊讶。我认为,要真正打造一款能够在实际用例中使用的产品,还有很多工作要做。

对于我们的客户来说,Devin需要为他们做的很多自然事情,比如连接到他们的数据狗来读取日志和进行实时调试,随着时间的推移学习他们的代码库,并能够处理出现的各种问题。它还需要能够在本地运行开发环境,并且能够独立测试前端和类似的功能。

所有这些都表明,我们可能需要在这个领域做更多工作,去建立更好的基准,公开的基准。就我们自己而言,我们主要使用我们自己的一套评估方式来测试和尝试不同的事物。


主持人:

关于未来的AI架构,有几个问题需要考虑。这些代理系统的内存,尤其是长上下文的内存,看起来会是怎样的?这在多大程度上影响了现今模型的效能?未来又会如何演变?

Scott:

我认为上下文显然会变得更长,这相当令人兴奋。但我确实认为仍然存在实际的限制,所以思考如何直接解决这个内存问题仍然很重要,尤其是当语境变长时。我不认为我们很快就会有一个世界,你可以把整个代码库和所有历史背景都放进去,然后模型决定该怎么做。

这是一个有趣的领域,可以思考人类是如何思考的。人类实际上有非常短的上下文感知,比如当你收到六位数的验证码时,其实挺难记住的。如果是10个数字,就更难了。我们显然有大约15秒的记忆,但人类拥有的最接近AI术语的描述是一个非常美妙的检索系统。你调出某个文件,然后会说,对,我记得这个。我在大约三个月前做过这个。然后,突然间,你就开始记得那些细节了。我不认为人工智能的能力会与人类完全相同。但我主要想说的是,解决问题肯定是可能的,而不必涉及到数百万或数十亿的上下文标记。


主持人:

人类在回忆某些事情时具有令人难以置信的记忆能力,这些事情不依赖于某种情境窗口,而且能够在某种程度上应对自如。

在未来的AI系统中,有多少类似于今天的规划实际上是在模型之外完成的?这有点像是一个系统层叠在模型之上,与模型进行交互,但实际上又是在模型之外完成的。那么,你认为这些规划结构和能力会进入模型吗?或者那根本就不是一个成型的问题?因为我们实际上并不知道这些模型是如何工作的。

Scott:

我认为那里的障碍并不是那么具体。我几乎会这样描述,总的来说,有预训练、训练后和模型推理时间。老实说,对于我们关心的大多数用例来说,在这三个层面上还有大量的优化工作要做。很多时候,这些类型会相互交织在一起。


主持人:

我可能会转而问一些关于早期创业的一般性问题。然后我们会转向观众提问。这是你创办的第二家公司。第一个是Lunch Club。可能每个企业家都会面临的最难的问题是:你怎么知道什么时候该放弃?特别是考虑到我们在硅谷的神话中有很多是关于坚持、奉献和长期思考的。比如说,你怎么知道,当这段旅程已经完成,我需要去做下一件事?

Scott:

我认为这是一篇非常好的PG文章,实际上,关于决定但不固执,我真的很喜欢。我认为很大程度上归结于我们所说的,你需要是一个长期的乐观主义者,但在日常工作中,你也需要非常警惕。在每个时间点,你需要思考,这个项目如何从当前状态发展成一个巨大的成功的故事。你要么会得出一个结论,认为有一条路可走,但是为了实现这个目标,这些事情必须要确保发生。然后,你有今天要做的事情的优先级,或者是一个问题,比如说,我们的这个论点是否依然成立?或者这仍然是最好的选择?

我不认为这会有一个简单的答案,但我确实认为其中很大一部分是,人们常被告知几乎不得不喝自己的“Kool-Aid”,就是为了相信而相信一些事情。我认为,乐观有其重要性,但创业更需要对自己诚实。


主持人:

如果你能对创始人说一句实话,你会告诉他们什么?

Scott:

外界确实有很多传统智慧的要素。我认为一个很重要的事情是要构建人们需要的东西。很容易被其他因素分散注意力,比如扩展团队,或者有多少人尝试过你的产品,但你真正想要达到的只是打造人们想要的东西。

还有一件事是不害怕看起来很蠢。你必须要做一些非常不同、非常新的事情,并且要愿意去尝试。我能想到各种各样的例子,这里有一个对我们来说很有趣的例子。

我们曾面试了一位麻省理工学院的学生,他在面试中的表现非常出色。我们在跟他聊加入公司的事,对他来说这是个艰难的问题,因为他当时还在上学,还在摸索中。他说,这是最令人兴奋的问题,这就是他想要做的工作。他愿意加入,但不确定是否会奏效,因为他认为父母不会同意。

他来自一个和蔼的古吉拉特家庭。于是我们两个人飞去了北卡罗来纳州,与他的父母共进晚餐,送了些礼物,聊了很多关于我们在做什么,为什么我们认为这很重要,还有他们的儿子在这些方面是多么出色。我们开车去他们家,吃了晚饭,呆了两个或三个小时,然后开车回去,当晚就飞回来了。

那感觉就像是,花费那八小时所获得的投资回报率是不可思议的高。如果这个没有任何效果,会觉得真的很傻。老实说,在很多情况下,也许不会发生这种情况,但这是一个我们愿意尝试的情况。如果我们只是在这里坐着思考,这种情况发生的几率有多大?我们从中得到了什么?在某种程度上,数学已经全都在那儿了。


主持人:

我还记得有一个来自 Dropbox 的例子。有个家伙可能在康奈尔大学还剩下两个学期的课程。我说服他退学,然后接到了他妈妈的电话。她说,答应我,你的儿子,我的儿子,会完成大学学业。我说,我怎么能保证这个呢?她说,你必须这样做。当时我心想,管他呢,我就答应了。

当Dropbox即将进行IPO时,他妈妈又打电话给我。她说:“我认为我儿子应该获得一个学位。你能帮他一下吗?”我当时想,好吧,他赚了很多钱,他会没事的。她坚持说:“不,你应该拿到学位。”于是我们为他报名了类似于晚间和夜间课程,最后他终于拿到了学位。

你知道的,不要招惹古吉拉特邦的妈妈们,我只是说说。鲁奇也是古吉拉特人,明确一下。但也许借此机会,我们可以把问题交给观众。我认为我们有一堆很酷的问题。前排有些人我知道一直在研究AI基础模型。让我们开始吧。有人想先提个问题吗?


观众QnA

我有一个问题,比如,你是如何找到产品市场匹配的,或者你是如何进行这项工作的?因为,有一种感觉是软件工程将要改变。显然你会遇到那些已经在做这份工作的人们的防御,而你的客户也会觉得很难达成共识并真正大规模部署它。那么,在与Devin寻找产品市场契合度时,有哪些挑战呢?

Scott:

是的,当然。所以我认为对我们来说,自然的事情之一,显然是我们都热爱编程和一切。所以我们使用自己的产品是很棒的。我认为第一个令人兴奋的用例,像Devin真正起作用的地方,是在一开始,我们尝试为某些事情设置MongoDB,当时很难弄清楚。就是那种情况,你会遇到一个错误,然后你去谷歌搜索那个错误并且修复它,然后又遇到另一个错误。据我所知,至少,这就是DevOps的运作方式。只是玩打地鼠游戏,直到某件事情成功运行。

是的,是的。所以我们把它交给了Devin,当时Devin基本上只是一个原型。我们真的没有预期到什么。我们只是说,嘿,你能设置一下MongoDB吗?因为我们现在不能这样。结果它做到了。那是一个非常令人兴奋的时刻,因为那确实是我们需要并且起作用的东西。

我认为,对我们来说,与客户一起迭代,同时我们自己也作为客户,是最重要的事情之一。我会说我们所研究的问题,如果有的话,可能比大多数问题更具研究性。但我认为即便如此,现实世界中的软件工程是混乱的。我们必须知道它确实对人们关心的用例和类似的事情有效。我认为,就像工程师有防御性而言,我认为在大多数情况下,我们很幸运地没有真正遇到过这种情况。我想谈论一下我们今天与客户合作的应用案例。总体而言,这些案例大多是比较单调或重复的任务。

首先,因为这些任务是重复性的,AI在处理这些任务时表现得更好。例如,当你进行代码迁移或平台重构时,面对一个庞大的代码库,比如有大约5000个文件需要迁移,这种繁琐的工作AI可以很好地完成。

此外,没有工程师愿意做这种工作。这是一个很好的例子,展示了人类与机器合作的美妙二元性。事实上,有更多有意义的事情可以让人们去做。为什么人们在版本号和其他事项的迁移过程中会拖延?因为这个过程有点痛苦。即使只是保持软件的更新,或者进行你想要的那种迁移,能够与客户合作并处理真实的使用案例,这是一件很好的事情。


您是如何处理销售和推销AI技术的?主要是和谁对话?你们如何看待预算和其他方面的问题?因为我知道有很多人觉得无论如何都得引入AI。你会选择那个预算吗?你会为开发工具预算吗?你是怎么考虑这部分过程的?

对我们来说,这是一个有趣的问题。正如你所说,有很多高管非常渴望掌握最新的AI潮流,但也有很多开发者喜欢尝试新技术。所以我们通常会进入组织,寻求自上而下和自下而上的支持,并与他们合作。当然,这涉及到创新预算、一般技术预算或开发工具预算,而这些预算在不同地方差异很大。但我认为,当人们对此足够兴奋,并且有明确有效的用例时,这就是关键所在。

总的来说,我认为在每一件小事上都要拼死拼活地争取,和与客户交谈时说“是的,用例可行”之间确实有很大区别。比如,我们今天试试,或者我们今天就买吧。对我们来说,很大一部分是专注于当前工作的领域,并继续扩展和扩大这些领域。


现在是否有一个前沿领域,那里有明显的地方Devin不适用,你会稍微避开这些地方,因为技术还没准备好?

是的,绝对的。如果你只是问Devin构建整个系统,包括复杂的架构和一切,我认为Devin不会第一次就成功。Devin可能会花好几个小时来尝试让它工作,但还是无法做到。所以,对于很多事情来说,关键在于找出哪些情况具有足够高的重复性和清晰度,从而确保投资回报率的存在。

为此,我们看到很多不同的迁移问题,但也有各种前端问题,比如日志分类和调试会话等,这些问题本身就有一个紧密的反馈循环。像Devin这样的人希望能够进行更改,然后自行启动本地前端并测试该更改,这样循环就变得更容易了。


您如何看待投资于调优与构建围绕模型本身的系统之间的关系?您可以进入强化学习(RL)领域,建立自己的RL系统并调整开源模型,但这也可能导致投资回报率的浪费,因为新的前沿模型会出现,而开源模型可能不如它们好。您怎么看?

我不能分享任何关于Devin具体工作原理的信息,但从高层次上来说,我可以肯定地说,有那种模型特定的投资你可以做,但很多这样的投资最终都能很好地泛化。比如说在强化学习领域,如果你想创建一个特定的数据集,准确捕捉你想要的期望行为,这当然是你可能需要在其他模型上重新微调或做其他事情的。但是,像这样的数据集显然非常有用,而且会很好地推广。所以,总的来说,为了准备应对变化,确保你在投入可以转移的事物上是关键。


关于筹资和估值的问题,你认为最重要的什么

我认为是非常明确地认识到,我们实际上还处于非常早期的阶段。我们正在追求一个非常大的目标,软件作为一个类别,它的价值是相当大的。关于估值之类的问题,我们还有很多事情想要做,还有很多想要发展的地方,并且我们有计划实现这些目标。所以,更重要的是在考虑我们想要在一年或几年后达到的目标时考虑到这一点。


谈到Devin不能做的事情,您有没有想过像人工智能加人类共生的那种情况?就是说,您卖掉Devin,然后60%的任务可以由Devin完成,但有30%或40%的任务无法完成,因此需要让真正的人来做这些任务,以实现更快的迭代循环。此外,这就像《绿野仙踪》一样,学习更多需要完成的任务。

我们目前没有完成这些任务。我们好像被指控做了那件事。但我认为,非常集成的软件有很多价值。这通常是开发人员工作流程的一部分,比如说,有很多小的上下文或小的知识是开发人员在进行工作时需要知道的。因此,我们真正投资的是,弄清楚很多这些与Devin实际互动的用户体验问题。

你如何给出反馈?你怎么看Devin正在做的事情?老实说,我认为一般来说,对于代理,不仅仅是编码代理,而是所有自主决策者,用户体验(UX)是非常不成熟的。我觉得,就算是一些基本的东西,比如说,这是Devin的浏览器,这是Devin的shell,你可以跟Devin对话,你可以在Devin正在做某事的时候异步地和Devin交流。很多这些我认为是自然的第一步,但还有更多的东西需要构建和完成。

我们通常要解决的问题是让工程师使用Devin,然后给予反馈并合作,这是一个非常常见的流程。通常你会同时运行多个Devin,然后逐个分析它们,如果它们遇到问题会提问,但你也会去查看,基本上就像是你自己的团队的经理,Devin实习生。


嗨,Scott,感谢你的时间。你们是如何看待通过大语言模型写的大量代码所带来的二次效应的?我个人也使用Gemini,很多时候我不想这样做,但我仍然盲目地复制粘贴代码。作为一名工程师,我也意识到诸如糟糕的代码味道这样的现象。当然,在编译通过和未通过之间存在一个紧密的反馈循环,但也有一些东西是人们知道的,比如一个高级开发人员会告诉一个初级开发人员,那只是糟糕的代码气息,不要那样做。

如果互联网上充斥着马马虎虎的代码或者类似的东西,或者是一个坏代码循环,仅仅在那里用更多的坏代码训练模型,你们现在有在考虑这些问题吗?这是一个明天的问题吗?因为作为程序员,我确信你们都很重视自己的技艺,那你怎么看呢?

是的,当然。Devin在我们的GitHub仓库中创建了PRs,但有一个人会审查该PR并将其合并。其实,我认为其中一个非常有趣的方面是所有权心态,基本上就是这样。确保在git blame上仍然有一个人的名字在这个提交上,这样,如果代码有问题,责任仍然会归到他们身上。我认为这实际上帮助很大。但是,总体上,我完全同意越来越多的代码是以这种方式编写的。我认为,从长远来看,这将是一个积极的因素,而不是负面的。

比如,我认为事情将以相同的惯用风格书写。我们几乎不需要查看代码,因为你会从逻辑的角度去思考这里执行的是什么。你可以对逻辑或其他方面进行修改,这将导致正确的代码变更被编写。所以,我还想强调这种关于好的代码的特定风格的理念。


主持人:

我认为这些是像高度稀缺资源的产物,你希望在某个特定的质量水平上拥有它们。现在,拥有糟糕的代码并修复它的下游影响,以及所有这些,都是相当高的成本。但我认为在未来,包括今天,我们往往没有一个非常细致的感觉,什么是真正需要像那样处理的代码,相对于那些可以一次性写完就丢掉的代码。

我认为未来会有多个代码层次,大部分代码希望是那种你不太在意它是如何实现的,它可能会相当粗糙,你可以随时丢弃它。这可能更多地反映了我作为一名工程师的特点,而不是编码的未来。但我确实认为,如今我们对代码的情感依赖实际上是编写代码困难的二次效应。希望在某种方式上,十年后情况会非常不同。

Scott比我更擅长工程。他看着我说,他同意我的看法。他的大部分代码已经不存在了。好吧,下一问题。

你能分享一些你是如何找到合适的创始人或联合创始人,以及如何在早期招募合适的人才的经验吗?

对我们来说,创始团队的大多数成员彼此已经认识了大约10年左右。我的两位联合创始人,Stephen,我从高中就认识他了,而Walden也是一样,我们认识的时间也很长。我们有类似的背景,比如一起参加比赛。我们过去几年都在从事不同方向的人工智能开发,后来自然而然地就开始一同合作了。我确实认为,和初创团队一起工作时,尽可能和你直接认识的人合作,或者至少要有非常非常强的共同联系。当然会有一个时刻,你必须要分支出来,超越那一点。但我个人认为,对于创始团队来说,这在任何可能的情况下都是很好的。


你之前提到过的一件事是你实际上使用了Devin来构建Devin。我很好奇,在内部测试自己产品时,有什么令人惊讶或意想不到的发现吗?在产品交付到客户手中后,有没有什么是你们原本以为是对的,但后来发现需要重新认识的事情?

是的,确实有很多这样的情况。Devin在处理事情时常常会带来一些小惊喜。我认为,即使是像调试这样看似简单的任务,也需要像人类一样去理解和处理。观看Devin的工作过程是一种乐趣,这种方式往往能引起共鸣。

Devin会阅读代码,调出另一个文件,加入一些打印语句,然后再次运行代码,但结果可能还是不行。接着他会查看日志,这种方式让我觉得他是一个让我心动的工程师。

关于客户需求的变化,确实有很多。显然,在初创公司的代码库上工作与在大型企业中工作是不同的。尤其是规模和项目的纯粹规模,比如移动几千个文件到一个新项目中。有些事情看似简单,但实际上需要大量的工程时间来解决。

例如,迁移到Flutter平台,需要处理很多细节问题。你基本上需要在每个步骤上放一个小问号,如果条件满足就执行相应的操作。这种事情看似简单,但需要重复成千上万次,并且要理解很多用例。解决这些问题是一个巨大的挑战,直到你错过其中一个细节时,才会意识到问题的复杂性。


谢谢你分享关于软件工程师角色变化的看法。我是从设计师转型为创始人,很想听听你对在Devin时代设计师角色变化的看法。

是的,我认为设计师、工程师和产品经理等角色之间有很多相似之处。让一个人真正出色的因素在这些角色中是相似的。即使工具发生变化,这个核心因素依然存在。如果要我描述它,我会说,关键在于能够分解问题并找到合适的解决方案。

思考我们在这里试图解决什么问题,我们在优化什么,了解你拥有的不同工具,然后能够生产出正确的解决方案。我认为这在任何地方都是适用的。

实际上,我认为会有很多工具加快设计过程,比如从元素或主题中提取并制作完整的模型。我也认为在未来,设计师、工程师和产品经理之间的共同点会越来越多,而不是差异。有一点我要补充的是,他们在直觉层面上能够理解当前系统的局限性,但也知道如何最好地利用它。


我的问题是,你们是否找到了一些超级明星,比如Deviners,就是那些懂得以非常厉害的方式利用Devin的人?

坦白说,我认为,真的需要很长时间才能习惯使用Devin。这是我们正在努力改善的事情之一。不过,我认为这是非常不同的。人们显然有与其他人类一起工作的经验,也有与聊天机器人对话的经验。但是,与代理合作和这两者中的任何一种都有点不同。

我们讨论的上下文是一个很好的例子。能够并行处理并启动多个Devin是另一个很好的例子。我认为一些特定的优点和缺点。我们发现要真正理解,对于Devin来说,问题需要分解到什么样的细化程度,这确实需要一些时间。或者是,如何准确地提示Devin并提供所需的正确输入。


主持人:有哪些书籍显著改变了你的人生轨迹?

我的生活?让我想想……可能,像数学和算法方面的教材对我的生活影响更大。但是最近,我真的很享受阅读其他关于创始人和科技人员的历史故事。最近我喜欢的一本书是塞巴斯蒂安·马拉比的《权力定律》,这本书基本上是关于整个科技生态系统和过去大约70年来风投和科技企业成立以来的许多重大浪潮。

主持人:我还没读到那本书。也许最后一个问题是,你用Devin做过的最有趣的事情是什么?比如说,你显然不是在攻击Devin本身或公司,但你有在个人项目中使用它吗?你最近在做什么黑客项目?

是的,很多小事。我和Devin一起做了一个很棒的情人节网站,这真的救了我。我认为那相当不错。我的联合创始人沃尔登有一次有趣的经历,他的航班被重新安排了,然后他就换了新的航班。他说,嘿,Devin,这是我的确认号码和所有信息。你能不能帮我弄点额外的退款或其他补偿?于是Devin拿着那些信息去到了网站,发送消息给客服,要求退款或其他补偿。这只是一种客户支持,类似于自动化的服务,也许还有一个聊天机器人。是的,是某种聊天机器人,它正在回应。然而,在某个时刻,似乎没有真正取得进展。

于是,Devin在聊天中写道,他需要与人类实际交流。这很难。Devin在与那个人的聊天中指出了法律条款的特定部分,比如第25条,要求对方按照规定处理。最终,他确实得到了退款。这是一个有趣的经历。


主持人:

好的,Scott,非常感谢你的时间和坦诚的回答。这非常有趣。

Scott:谢谢大家。