回复@smart_tiger请问我今天写论文没:终究会走到一条路-20241007230030_宝玉xp的专栏文章_微信文章

回复@smart_tiger请问我今天写论文没:终究会走到一条路上，很多交互会慢慢成为标准，但是没那么快跟上。当然对于创新者来说，得一直保持创新，不然被追上是迟早的事情。//@smart_tiger请问我今天写论文没:宝玉老师您觉得GitHub copilot会抄它吗？抄的话感觉很容易？//@宝玉xp:转发微博

#模型时代# Cursor团队接受Lex Fridman访谈：我们用AI让普通工程师的效率提高10倍。
如果说目前最火的AI应用项目，应该就是Cursor的AI编码工具，和谷歌的NotebookLM了。不过，谷歌是个大公司，而Cursor是个创业团队，而且辅助编码这个赛道早就有微软等Co-pilot工具开发出来了。那么Cursor如何作为创业团队，做出了现象级产品？

最近，Cursor团队的Aman Sanger、Arvid Lunnemark、Michael Truell 和 Sualeh Asif 等四名主要成员，集体接受了Lex Fridman的播客访谈，谈了他们对AI编码工具的理解。

对于Cursor的定位，团队成员说，他们是一个应用研究实验室，致力于构建非凡的高效人工智能系统。而目前正在打造的Cursor，目的是将普通工程师的效率提高十倍。这个（人+机器）的混合工程师将能够毫不费力地控制代码库，不需要低熵的敲键盘。

所以，他们并不认为Cursor是取代人类的，而是通过结合人工智能和人类的创造力，这将超越和优于最好的纯人工智能系统。这项工作，已经改善了数十万程序员的生活。

这段话我觉得蛮有启发的，因为目前的AI产品，其实对于本领域的天才而言，都用处不大。比如ChatGPT对于王牌作家，MidJourney对于一线原画设计师，Cursor对于编程大佬。但是这些工具的意义在于，能够将普通人（甚至门外汉）的水准快速拉到及格线水平。而由于模型是不断演进的，所以在某一天可能这些普通人+AI，就具备了触及大佬的水平。这就是所谓的颠覆式创新吧。

由于视频过长，所以视频字幕就是机器翻译了，如果有词意不通的地方，可以看播客原文：lexfridman.com/cursor-team-transcript 。

时间轴如下：
0:00 - 介绍
0:59 - 代码编辑器基础知识
3:09 - GitHub 副驾驶
10:27 - 光标
16:54 - 光标选项卡
23:08 - 代码差异
31:20 - ML 详情
36:54 - GPT vs Claude
43:28 - 提示工程
50:54 - 人工智能代理
1:04:51 - 在后台运行代码
1:09:31 - 调试
1:14:58 - 危险代码
1:26:09 - 分支文件系统
1:29:20 - 扩展挑战
1:43:32 - 背景
1:48:39 - OpenAI o1
2:00:01 - 合成数据
2:03:48 - RLHF vs RLAIF
2:05:34 - 人工智能菲尔兹奖
2:08:17 - 缩放定律
2:17:06 - 编程的未来

一些主要观点：
***
1、AI模型进化与Cursor的竞争优势
Michael Truell："这个领域与过去十年的软件领域有所不同，其发展潜力难以估量。我预计三到四年后，最佳产品的实用性将远超现今。仅仅依赖现有优势是不够的，持续创新才是制胜关键。这为新进入者提供了机会，他们可以通过打造更优秀的产品来挑战现有巨头。因此，在未来几年里，重点将是开发最佳产品和系统，这既涉及底层建模引擎，也包括用户编辑体验。"

2、未来编程体验
Arvid Lunnemark："我期待这样一个未来：程序员只需提供几个示例，AI就能将其应用到整个代码库。当遇到新情况时，AI会主动寻求指导。这个过程可能在短短10分钟内完成，大大加快了迭代速度。这种方法减少了前期规划的压力，允许快速尝试和调整。我相信，这将使未来的编程工作变得更加高效和有趣。"

3、AI模型对代码的深度理解
Aman Sanger："我们的模型对代码有着深入的理解。在预训练过程中，模型形成了识别潜在问题的能力。然而，将这种理解转化为有用的输出仍然面临挑战。关键在于区分不同严重程度的问题，就像人类程序员能够区分轻微bug和可能导致系统崩溃的严重问题一样。"

4、处理大规模代码库的挑战
Sualeh Asif："即使使用最先进的硬件，处理大型企业级代码库仍然面临巨大挑战。这不仅影响初级开发者，甚至公司最优秀的程序员在本地处理所有任务时也会遇到困难。虽然可以勉强应对，但这种方式会显著降低开发效率和乐趣。"

5、重新构想代码审查过程
Michael Truell："现有的代码审查方法存在明显不足。开发者经常花费大量时间理解不熟悉的代码，而且常常难以有效识别bug。我们相信，通过利用语言模型，可以显著改善审查体验。例如，AI可以帮助识别代码中最关键的部分，引导审查者关注真正重要的区域。"

6、合成数据在AI训练中的作用
Aman Sanger："我们可以将合成数据分为三类。第一是知识蒸馏，将复杂模型的能力转移到更小的模型中。第二是利用问题的不对称性，如生成bug比检测bug更容易。第三是使用语言模型生成可以轻松验证的文本，特别适用于数学或编程等领域。这些方法都旨在提高模型训练的效率和性能。"

7、测试时计算的创新
Michael Truell："测试时计算真的非常有趣。传统上，随着增加数据量和模型大小，我们在损失和下游基准测试上获得更好的性能。但我们开始遇到数据墙，继续扩大这个制度变得困难。扩大测试时计算是一个新方法，我们可以增加推理时使用的flops数量，同时获得相应的模型能力提升，而不需要训练更大的模型。"

8、代码索引和检索的技术挑战
Sualeh Asif："我们的系统上传并分块所有代码，然后生成嵌入表示。这些嵌入存储在数据库中，而不是原始代码。这种方法在保护用户隐私和提高检索效率之间取得了平衡。然而，这也带来了新的挑战，特别是在保持客户端和服务器端状态同步方面。"

9、AI在编程中的角色定位
Michael Truell："我们的愿景是让程序员长期保持主导地位。我们注重提高速度、增强程序员的主动性和控制力，使他们能够快速迭代和修改任何需要改变的内容。AI应该是一个强大的助手，而不是取代人类创造力。"

10、编程教育的未来展望
Arvid Lunnemark："随着AI工具的发展，未来的编程教育将发生重大变化。我们可能会看到课程更加注重高层次的问题解决、系统设计和创新思维，而不是纯粹的编码技能。这将使编程变得更具挑战性和回报性。"

高飞的微博视频

回复@smart_tiger请问我今天写论文没:终究会走到一条路-20241007230030

正文

2024-10-07 23:00
本条微博链接