专栏名称: 奇客Solidot
奇客的资讯,重要的东西
目录
相关文章推荐
安徽商报  ·  安徽夯实江淮粮仓“耕基” ·  3 天前  
51好读  ›  专栏  ›  奇客Solidot

OpenAI 研究员发现最好的 AI 也无法解决大部分编程问题

奇客Solidot  · 公众号  ·  · 2025-02-26 07:06

正文

OpenAI 研究员发现即使是最先进的 AI 模型也无法解决大部分它们没见过的编程问题。研究报告发表在预印本平台 arXiv。研究人员利用了一个新开发的基准测试 SWE-Lancer,该测试是基于自由职业网站 Upwork 上的逾 1,400 道软件工程问题,测试针对了三个大模型:OpenAI 的 o1 推理模型和 GPT-4o,以及 Anthropic 的 Claude 3.5 Sonnet。大模型被禁止联网,以免拷贝网上已经发布的类似问题答案。结果显示,Claude 3.5 Sonnet 的表现更出色,然而它的大部分答案也都是错误的。研究人员称,大模型需要提高可靠性才能被信任去完成现实中的编程问题。大模型在处理未知问题上仍然远逊色人类工程师。


arXiv:2502.12115





NVIDIA GTC 2025 早鸟票折扣福利,免费加入NVIDIA初创加速计划即可享受


NVIDIA初创加速计划是NVIDIA为全球创业公司打造的加速平台,旨在为创新企业提供全方位的支持。在中国,已有超过千家创业公司加入,并获得融资机会、客户对接、路演展示、技术支持、市场推广,以及NVIDIA软硬件产品折扣等独家资源支持。现在免费申请加入,还有机会获得 GTC25 早鸟票折扣,点击链接或者扫描即可免费申请加入。


免费申请通道:https://jinshuju.net/f/SsRLbl?x_field_1=solidot








请到「今天看啥」查看全文