如果你想了解一个月 $500 的 Devin 表现如何,可以看看这篇文章:《与 Devin 相处一个月的思考 [译]》,作者认真测试了一个月,系统地记录了它在以下几类任务中的表现:
1. 从零开始创建新项目
2. 执行研究类任务
3. 分析和修改现有项目
分配了 20 多个任务,结果相当令人失望:20 个任务中,14 个失败,3 个成功(其中还包括之前的 2 个初始成功),3 个结果不确定。更要命的是,我们无法预判哪些任务会成功。与早期成功示例类似的任务,结果往往也会出乎意料地失败。
作者所在团队成员的反馈:
当它能做的任务非常小、需求非常明确时,我自己动手可能会更快,还能保持我的风格。它似乎难以在更大的任务中节省时间,尤其是那些我可能希望通过它来提高效率的任务,它常常搞砸了。所以,我感觉还没有一个我真正想用它的场景。
—— Johno Whitaker
开始时我对它的表现充满期待,觉得我只要稍微调整一下就行。可随着调整的内容越来越多,我最后发现,还不如干脆自己一步步写,这样效率更高。
—— Isaac Flath
Devin 无法正确使用我们在 Answer AI 里非常重要的一些内部工具,这加剧了其他问题,让它的使用体验十分不理想。尽管我们已经向它提供了大量文档和示例。我在使用像 Cursor 这样的工具时就很少遇到类似问题,因为这类工具能让我以更加渐进的方式给出提示和引导。
—— Hamel Husain
详情:网页链接
1. 从零开始创建新项目
2. 执行研究类任务
3. 分析和修改现有项目
分配了 20 多个任务,结果相当令人失望:20 个任务中,14 个失败,3 个成功(其中还包括之前的 2 个初始成功),3 个结果不确定。更要命的是,我们无法预判哪些任务会成功。与早期成功示例类似的任务,结果往往也会出乎意料地失败。
作者所在团队成员的反馈:
当它能做的任务非常小、需求非常明确时,我自己动手可能会更快,还能保持我的风格。它似乎难以在更大的任务中节省时间,尤其是那些我可能希望通过它来提高效率的任务,它常常搞砸了。所以,我感觉还没有一个我真正想用它的场景。
—— Johno Whitaker
开始时我对它的表现充满期待,觉得我只要稍微调整一下就行。可随着调整的内容越来越多,我最后发现,还不如干脆自己一步步写,这样效率更高。
—— Isaac Flath
Devin 无法正确使用我们在 Answer AI 里非常重要的一些内部工具,这加剧了其他问题,让它的使用体验十分不理想。尽管我们已经向它提供了大量文档和示例。我在使用像 Cursor 这样的工具时就很少遇到类似问题,因为这类工具能让我以更加渐进的方式给出提示和引导。
—— Hamel Husain
详情:网页链接