专栏名称: 猿大侠
猿大侠,既然选择了,就一定成为大侠! 小程序、小游戏、Google、苹果、职场、前沿技术分享,一起成长。
目录
相关文章推荐
生物学霸  ·  从《甄嬛传》学高级科研绘图配色 ·  昨天  
BioArt  ·  Sci ... ·  昨天  
生信菜鸟团  ·  读吴家睿老师新书《新科学时代的思考》 ·  2 天前  
生物学霸  ·  DeepSeek 联合 ... ·  3 天前  
51好读  ›  专栏  ›  猿大侠

AI程序员Devin卧底工作群修bug!和CTO聊技术,网友:顶级码农水平

猿大侠  · 公众号  ·  · 2024-03-19 22:28

正文

作者:梦晨 西风
转自:量子位 | 公众号 QbitAI

首个AI程序员 Devin ,现身明星创业公司内部群。

为解决一个技术问题,Devin借用了其创造者的账号, 与客户公司的CTO交流 ,并根据回复调整了代码方案。

对话之专业,围观者看了直呼这个世界太疯狂。

事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司 Modal Labs CTO Akshat Bubna

Modal Labs也是Devin开发商Cognition的首批客户之一。

此时Devin正披着他的创造者之一、IOI金牌得主 Steven Hao 的马甲。

对话的开始,AI程序员Devin正在询问有关Modal Lab平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。

Devin表示 自己已经查阅了文档 ,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子和参数, 但依旧没有找到关于密钥传播时间的明确信息

Devin询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要, 了解这一点将有助于管理他们的部署流程

人类CTO解释说,当密钥更新时,他们不会使已经运行的Modal容器失效,但是新启动的容器将会读取更新后的值。

Devin对此表示感谢,并 决定暂时采用手动方法来管理Modal中的密钥,即在需要时调用modal deploy命令来触发相关应用程序容器的重启



看完整个过程后,同样是AI创业者的Raunak Chowdhuri评价到:

发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。

Devin更多实测结果

拿到Devin早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。

热衷AI的沃顿商学院教授 Ethan Molick 试过后,认为其新颖的实时交互方式是最值得关注的。

您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。

在测试中,Ethan Mollick要求Devin开发一个解释“创业公司融资中的股权稀释”的网站。

不过他透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。

另一位晒出测试过程的创业者 Mckay Wrigley 更激动一些。

在他晒出的27分钟测试中,只发了一个GitHub连接,让Devin部署来自开源项目的代码。

Devin 自主把任务拆解成一系列子步骤 ,并一步步开始执行。

执行过程中,Devin在安装Supabase数据库时遇到了障碍, 自己打开了对应的Github仓库开始查阅文档 ……

从后续终端反馈中可以看出,Devin查到了运行Supabase所需的各种端口和密匙都应该填什么。

(装过的都知道,雀食挺麻烦……)

与此同时,Devin还在 根据实际情况不断修改自己的后续计划

一段时间过后,一个本地的聊天机器人程序就跑起来了。

测试一段时间后Mckay Wrigley认为, Devin已经可以算Agent的ChatGPT时刻。

复现Devin计划ing

Devin这边大伙还在接连测试,另一边开源“复现”方案也在进行中……

这不,GitHub三万Star项目 MetaGPT 就上新了“开源版Devin”。

名为 数据解释器 (Data Interpreter):

同Devin一样,Data Interpreter也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……

比如从英伟达股价数据中分析收盘价格趋势:

分析数据预测葡萄酒质量:

除此以外,阿里Qwen成员Binyan Hui等人开启了 OpenDevin 项目,刚刚起步已获得1.2k Star。

Binyan Hui发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。

同时项目团队也在招新成员:

另外,还一个名为Maisa AI的团队推出了 Maisa KPU (Knowledge Processing Unit),被网友认为与Devin有一些竞争。

目前Maisa KPU处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:

根据demo展示,KPU可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:

Devin基准测试技术报告发布

最近,Devin创始团队Cognition还发布关于SWE-bench测试的技术报告。

除了之前已公布的测试结果之外,团队还透露了一些新消息。







请到「今天看啥」查看全文