//@蒋文明in南京:作为 AGI 的基础设施,AI-Coding/Programming 旨在穷尽当下的模型能力,开发提升开发效能的开发工具,是 AI 反身性的典型体现。仔细看了播客文稿,新的 AI 赋能谱系如果沿用之前的职位称谓的话,宝玉是二阶的产品经理视角,陈鑫 & 郑勤锴则是二阶的程序员视角,而喜欢类比的张海龙则是二阶的市场视角。
昨天和张海龙(Gru.ai CEO)、陈鑫(阿里云通义灵码负责人)和郑勤锴(智谱 AI CodeGeeX 负责人)几位嘉宾一起,参加了由唐小引总编主持的 CSDN 万有引力“2025 年 AI coding 将如何演进”的视频讨论,核心主题是 AI 编程。主要话题聚焦在专业开发者在日常研发中使用 AI 编程工具时的痛点与需求,总结 2024 年的 AI 编程工具发展,并预测 2025 年及未来的演进趋势。
内容比较多,我简单总结几个点。
1. 2024 年 AI 编程工具的亮点与回顾
这个问题大家都有发言,总结下来是三点:以 Cursor 为代表的 AI 编程工具的崛起,模型的编程能力突飞猛进,能编程的 AI Agent 初见雏形。另外一个有意思的点是,同样都是用 Cursor、Windsurf 这样的 AI 编程工具,每个人的用法是不一样的,比如张海龙就只会用 Cursor 的 Tab 自动补全,而我则用 Composer 最多,勤锴则是更多的使用 AI Agent 功能,所以主要用 Windsurf 来使用 Agent 写代码运行代码。
2. 2025 年 AI 编程工具的演进趋势
张海龙:
2025 年肯定会看到大量的 Agent 落地,但更可能是垂直领域的 Agent。到时候会出现很多代码仓库里,Agent 也作为提交者,帮你写测试、改文档、修简单 bug 等脏活累活,让人类开发者可以更专注核心逻辑。
陈鑫:
对,短期来看 Agent 会大爆发,大家都在做。长期是否能颠覆现有编程模式,还要看模型能否真正理解需求、用新思路重构 DevOps 等生态。六个月到一年内肯定是 Agent 继续发展,但能否出现颠覆性突破还不好说。
宝玉:
目前 AI 还没颠覆软件工程整体流程,集中在原型与编码阶段。未来一两年,AI 在测试和运维上也会有明显进步。模型能力上,比如 Claude 现在是中级水平,o1 Pro 更高一些,但也会不断演进。Agent 虽然大家期待很高,但我觉得两年内可能还不算特别成熟,也许五年后会出现超越我们想象的东西。
3. 针对于程序员群体关心的“35 岁危机”。AI coding 出现后,这个问题会更严重吗,还是能带来缓冲?
张海龙:
我已 40 岁,我认为 AI 对老程序员是利好。以前拼手速、熬夜写代码,现在 AI 可以代劳很多体力活,经验丰富的人更能把握全局。我觉得这是春天。
陈鑫:
对,AI 更擅长执行,经验、架构设计、沟通其实更需要老程序员的能力。很多新工具降低了切换语言和领域的门槛,但真正把握需求、设计框架、整合资源依然是经验的优势。
宝玉:
不过也要看个人是否愿意拥抱 AI。有些老程序员不愿意学新东西,被年轻人用 AI 追赶就很危险。要想受益,还是要主动用、熟练用。
郑勤锴:
对,这是人与人之间的竞争,不是人与 AI 的竞争,会用 AI 的人肯定淘汰不会用的。所以必须积极拥抱,越早越能获得领先优势。
4. 有人说 code review 很花时间,能否让 AI 直接做 code review?
张海龙:
要做得好非常难。我们团队深度实践 code review,发现要看很多业务上下文、需求场景、历史限制等。很多 code review 工具生成一些正确的“废话”,但在实际工程中,大家都知道很多地方并非那么简单。要真正让 AI 做得好,几乎跟做通用编程 Agent 一样难。
陈鑫:
对,企业的确很希望有 code review 自动化工具,至少做初步检查。我们目前也在做,但大多只能发现风格、格式等低级错误,与企业对业务逻辑检查的期望还有明显差距。要理解业务、需求,AI 本身得足够强,目前还远远不够。
宝玉:
对程序员来说,code review 恰恰是 AI 难以替代的地方之一。相比以往,AI 生成大量代码后,我们更需要花精力在 code review 上,用经验和完整上下文把关,不能稀里糊涂就 merge。AI 可以替代或部分替代传统的代码扫描工具,但要真正替代人的 code review,还相当困难。
5. 那 debug 呢?大家遇到 bug 经常直接贴给 AI,让它分析或给出修改。以后 debug 是否也能全自动?
张海龙:
许多创业公司都尝试做“自动修 bug”Agent,但没有做得很成功。修 bug 其实和写新功能类似,最关键是能否重现(reproduce),这一步对 AI 特别难,连人都不一定一次能重现。所以在当下,debug 依然要靠程序员。
宝玉:
我也有类似感受,遇到特殊环境、复杂条件或边界时,AI 只能给些猜测,需要人去重现并验证。
6. AI 编程会不会产出很多“垃圾代码”?程序员以前要注重性能、可维护性等,这些还要不要继续?
张海龙:
还是要,非常重要。尤其是当 AI 大量生成代码后,潜在地会有更多质量隐患,因为人可能没仔细审查就 merge 了。所以保障质量的手段不会变,比如 code review、单元测试、integration test 这些,依然需要,只是将来能多一些自动化工具辅助。
AI 不会直接提高你的“上限”,它更像放大器。水平差的人用 AI,大概率还是产出烂代码;水平高的人则能通过 AI 放大自己的能力。最终保障质量还得依赖既有软件工程实践。
唐小引:
那理想状态是人机搭配写代码,同时注重质量?
张海龙:
对,像 code review、CI/CD、自动化检查都必不可少,尤其当 AI 生成代码后更要严谨。甚至可以用另一套 Agent 专门生成单元测试,分工明确。
7. 有没有什么功能,帮助开发者减少提示词难度?
陈鑫:
我们会在 IDE 插件里让开发者对上下文有更明确的控制,尽量保证透明度。比如检测当前修改需要哪些相关文件做参考,会建议用户选择。若将上下文无限扩大,模型反而混乱。同时也保留用户对上下文的把控权,这是现阶段的“折中”方式。毕竟等模型足够强大时,完全自动上下文管理或许会成为现实,但目前还不成熟。
郑勤锴:
是的,我们现在更多是借助知识库,把用户可能需要的文件、文档、历史操作记录等检索出来,提供给模型。但依然要想提高整体效果,需要让模型更主动调用各种工具来精确查找相关信息,而不是粗暴的 RAG(相似片段检索)。理想状态是模型能够像人一样阅读代码结构、跳转定义和引用。但现在大家都还在探索中。
8. 很多人觉得提示词工程是大难点,常常写不准需求,或者生成的代码里又带来新的 bug,对提示词有什么经验?
宝玉:
我之前花了很多时间研究提示词,也总结了不少技巧,但现在认为针对编程,提示词一些花哨的角色扮演、格式说明可能并非最重要。根本还是模型能力、上下文信息和明确的需求。
- 模型:用好的模型非常关键,比如 O1 Pro。
- 上下文:要把功能或 bug 相关的一切信息都给它,AI 没有读心术,不知道你想干什么。
- 原子化:一次让它实现相对独立的功能,复杂需求拆成若干小模块,每个模块只提供它所需的上下文和准确指令。这样 AI 完成度会高很多。
9. 谈谈 AI coding 的整体发展,尤其 Agent
张海龙:
AI coding 分很多方向:针对专业开发者有同步工作(IDE、插件)和异步工作(代码管理、Agent 自主执行)之分。目前做得最好的是同步工作,像 Cursor、Copilot。这类工具形态很成熟,而尝试做异步工作的 Agent 效果还不理想。对专业开发来说,Agent 需要大量的业务上下文和持续更新,这些上下文又在不断变化,纯靠大模型很难持续理解。RAG 效果暂时也不好。
我认为通用型编程 Agent 做不出来,因为它需要理解无比复杂的需求、业务上下文和工程脉络,这些上下文每时每刻都在变,模型也不是“动态学习”的。所以我更看好垂直型的 Coding Agent,比如只做 Code Review、只做单元测试、只做 Refactoring 等,有针对性才能做得好。做一个“万能”型的通用 Agent,相当于要实现 AGI,目前不太可行。
宝玉:
我打个比方:我们以前试图模仿鸟的振翅来造飞行器,发现做不到,最终我们造出了飞机。AI 编程也类似,目前要让它完美地理解和处理所有复杂业务逻辑确实难,但将来随着技术栈对 AI 友好度的提升,一些标准化、模块化的代码会让 AI 编程越来越强。短期来看,通用 Agent 可能难有惊喜,但五到十年后也许会突然跨过一个临界点。
陈鑫:
我跟海龙总的看法类似,目前模型理解需求、自动完成工作还很初级。对需求的多轮迭代、上下文管理都需要开发者配合,而且越大越复杂的业务逻辑越需要精确描述,纯依赖自然语言很难。未来可能要么出现 AGI,要么根本就不再写代码,用新的范式取代。如果局限在现有模式下,很难完全自动化。
上面只是摘取了一部分内容的摘要,完整文稿我整理在了:网页链接 宝玉xp的微博视频
内容比较多,我简单总结几个点。
1. 2024 年 AI 编程工具的亮点与回顾
这个问题大家都有发言,总结下来是三点:以 Cursor 为代表的 AI 编程工具的崛起,模型的编程能力突飞猛进,能编程的 AI Agent 初见雏形。另外一个有意思的点是,同样都是用 Cursor、Windsurf 这样的 AI 编程工具,每个人的用法是不一样的,比如张海龙就只会用 Cursor 的 Tab 自动补全,而我则用 Composer 最多,勤锴则是更多的使用 AI Agent 功能,所以主要用 Windsurf 来使用 Agent 写代码运行代码。
2. 2025 年 AI 编程工具的演进趋势
张海龙:
2025 年肯定会看到大量的 Agent 落地,但更可能是垂直领域的 Agent。到时候会出现很多代码仓库里,Agent 也作为提交者,帮你写测试、改文档、修简单 bug 等脏活累活,让人类开发者可以更专注核心逻辑。
陈鑫:
对,短期来看 Agent 会大爆发,大家都在做。长期是否能颠覆现有编程模式,还要看模型能否真正理解需求、用新思路重构 DevOps 等生态。六个月到一年内肯定是 Agent 继续发展,但能否出现颠覆性突破还不好说。
宝玉:
目前 AI 还没颠覆软件工程整体流程,集中在原型与编码阶段。未来一两年,AI 在测试和运维上也会有明显进步。模型能力上,比如 Claude 现在是中级水平,o1 Pro 更高一些,但也会不断演进。Agent 虽然大家期待很高,但我觉得两年内可能还不算特别成熟,也许五年后会出现超越我们想象的东西。
3. 针对于程序员群体关心的“35 岁危机”。AI coding 出现后,这个问题会更严重吗,还是能带来缓冲?
张海龙:
我已 40 岁,我认为 AI 对老程序员是利好。以前拼手速、熬夜写代码,现在 AI 可以代劳很多体力活,经验丰富的人更能把握全局。我觉得这是春天。
陈鑫:
对,AI 更擅长执行,经验、架构设计、沟通其实更需要老程序员的能力。很多新工具降低了切换语言和领域的门槛,但真正把握需求、设计框架、整合资源依然是经验的优势。
宝玉:
不过也要看个人是否愿意拥抱 AI。有些老程序员不愿意学新东西,被年轻人用 AI 追赶就很危险。要想受益,还是要主动用、熟练用。
郑勤锴:
对,这是人与人之间的竞争,不是人与 AI 的竞争,会用 AI 的人肯定淘汰不会用的。所以必须积极拥抱,越早越能获得领先优势。
4. 有人说 code review 很花时间,能否让 AI 直接做 code review?
张海龙:
要做得好非常难。我们团队深度实践 code review,发现要看很多业务上下文、需求场景、历史限制等。很多 code review 工具生成一些正确的“废话”,但在实际工程中,大家都知道很多地方并非那么简单。要真正让 AI 做得好,几乎跟做通用编程 Agent 一样难。
陈鑫:
对,企业的确很希望有 code review 自动化工具,至少做初步检查。我们目前也在做,但大多只能发现风格、格式等低级错误,与企业对业务逻辑检查的期望还有明显差距。要理解业务、需求,AI 本身得足够强,目前还远远不够。
宝玉:
对程序员来说,code review 恰恰是 AI 难以替代的地方之一。相比以往,AI 生成大量代码后,我们更需要花精力在 code review 上,用经验和完整上下文把关,不能稀里糊涂就 merge。AI 可以替代或部分替代传统的代码扫描工具,但要真正替代人的 code review,还相当困难。
5. 那 debug 呢?大家遇到 bug 经常直接贴给 AI,让它分析或给出修改。以后 debug 是否也能全自动?
张海龙:
许多创业公司都尝试做“自动修 bug”Agent,但没有做得很成功。修 bug 其实和写新功能类似,最关键是能否重现(reproduce),这一步对 AI 特别难,连人都不一定一次能重现。所以在当下,debug 依然要靠程序员。
宝玉:
我也有类似感受,遇到特殊环境、复杂条件或边界时,AI 只能给些猜测,需要人去重现并验证。
6. AI 编程会不会产出很多“垃圾代码”?程序员以前要注重性能、可维护性等,这些还要不要继续?
张海龙:
还是要,非常重要。尤其是当 AI 大量生成代码后,潜在地会有更多质量隐患,因为人可能没仔细审查就 merge 了。所以保障质量的手段不会变,比如 code review、单元测试、integration test 这些,依然需要,只是将来能多一些自动化工具辅助。
AI 不会直接提高你的“上限”,它更像放大器。水平差的人用 AI,大概率还是产出烂代码;水平高的人则能通过 AI 放大自己的能力。最终保障质量还得依赖既有软件工程实践。
唐小引:
那理想状态是人机搭配写代码,同时注重质量?
张海龙:
对,像 code review、CI/CD、自动化检查都必不可少,尤其当 AI 生成代码后更要严谨。甚至可以用另一套 Agent 专门生成单元测试,分工明确。
7. 有没有什么功能,帮助开发者减少提示词难度?
陈鑫:
我们会在 IDE 插件里让开发者对上下文有更明确的控制,尽量保证透明度。比如检测当前修改需要哪些相关文件做参考,会建议用户选择。若将上下文无限扩大,模型反而混乱。同时也保留用户对上下文的把控权,这是现阶段的“折中”方式。毕竟等模型足够强大时,完全自动上下文管理或许会成为现实,但目前还不成熟。
郑勤锴:
是的,我们现在更多是借助知识库,把用户可能需要的文件、文档、历史操作记录等检索出来,提供给模型。但依然要想提高整体效果,需要让模型更主动调用各种工具来精确查找相关信息,而不是粗暴的 RAG(相似片段检索)。理想状态是模型能够像人一样阅读代码结构、跳转定义和引用。但现在大家都还在探索中。
8. 很多人觉得提示词工程是大难点,常常写不准需求,或者生成的代码里又带来新的 bug,对提示词有什么经验?
宝玉:
我之前花了很多时间研究提示词,也总结了不少技巧,但现在认为针对编程,提示词一些花哨的角色扮演、格式说明可能并非最重要。根本还是模型能力、上下文信息和明确的需求。
- 模型:用好的模型非常关键,比如 O1 Pro。
- 上下文:要把功能或 bug 相关的一切信息都给它,AI 没有读心术,不知道你想干什么。
- 原子化:一次让它实现相对独立的功能,复杂需求拆成若干小模块,每个模块只提供它所需的上下文和准确指令。这样 AI 完成度会高很多。
9. 谈谈 AI coding 的整体发展,尤其 Agent
张海龙:
AI coding 分很多方向:针对专业开发者有同步工作(IDE、插件)和异步工作(代码管理、Agent 自主执行)之分。目前做得最好的是同步工作,像 Cursor、Copilot。这类工具形态很成熟,而尝试做异步工作的 Agent 效果还不理想。对专业开发来说,Agent 需要大量的业务上下文和持续更新,这些上下文又在不断变化,纯靠大模型很难持续理解。RAG 效果暂时也不好。
我认为通用型编程 Agent 做不出来,因为它需要理解无比复杂的需求、业务上下文和工程脉络,这些上下文每时每刻都在变,模型也不是“动态学习”的。所以我更看好垂直型的 Coding Agent,比如只做 Code Review、只做单元测试、只做 Refactoring 等,有针对性才能做得好。做一个“万能”型的通用 Agent,相当于要实现 AGI,目前不太可行。
宝玉:
我打个比方:我们以前试图模仿鸟的振翅来造飞行器,发现做不到,最终我们造出了飞机。AI 编程也类似,目前要让它完美地理解和处理所有复杂业务逻辑确实难,但将来随着技术栈对 AI 友好度的提升,一些标准化、模块化的代码会让 AI 编程越来越强。短期来看,通用 Agent 可能难有惊喜,但五到十年后也许会突然跨过一个临界点。
陈鑫:
我跟海龙总的看法类似,目前模型理解需求、自动完成工作还很初级。对需求的多轮迭代、上下文管理都需要开发者配合,而且越大越复杂的业务逻辑越需要精确描述,纯依赖自然语言很难。未来可能要么出现 AGI,要么根本就不再写代码,用新的范式取代。如果局限在现有模式下,很难完全自动化。
上面只是摘取了一部分内容的摘要,完整文稿我整理在了:网页链接 宝玉xp的微博视频