专栏名称: 开源前线
推荐热门开源软件,播报最新开源项目和开源资讯!
目录
相关文章推荐
湘微教育  ·  今天起,可以查分了! ·  14 小时前  
湘微教育  ·  今天起,可以查分了! ·  14 小时前  
青岛早报  ·  今起,可查成绩!山东是12:00 ·  16 小时前  
天下泉城  ·  今起,成绩可查!山东具体时间公布 ·  17 小时前  
鸡西新闻网  ·  即将出分!转存这份2025考研复试全攻略 ·  昨天  
鸡西新闻网  ·  即将出分!转存这份2025考研复试全攻略 ·  昨天  
发现新西兰  ·  突发:新西兰国会“封杀”DeepSeek!微 ... ·  3 天前  
51好读  ›  专栏  ›  开源前线

AI 已经会刷 LeetCode 了!

开源前线  · 公众号  ·  · 2021-06-03 10:24

正文

本文经AI新媒体量子位(ID:QbitAI)授权转载,转载请联系出处
贾浩楠 发自 凹非寺

大家好,我是小 G。

你在面试中会遇到的那种算法题,AI已经能自己解决了,比如下面这道题:

对于一个记录论文引用次数的数组,每个元素都是非负整数。请写出函数h_index,输出这些论文的h指数,即至多有h篇文章被至少引用了h次。

例:
输入: [3, 0, 6, 1, 4]
输出: 3

AI给出的Python答案是这样的:
除了排序没用counts.sort(reverse = True)让人看着血压升高,算是顺利通过测试:
来自UC伯克利的研究团队,将上面这道题被归为“面试级”难度(看来国外程序员面试题有点简单)。
此外还有更简单的“入门级”和更难的“竞赛级”,总共5000道题的测试中,AI能做出 15%
另外有人声称,他专门用GPT-2训练了个专门做LeetCode的AI,能完成 80%
在刷LeetCode的你,是否在颤抖?

GPT-Neo赢过GPT-3

本研究使用的题目形式是自然语言题干,不同于以往研究常用的伪代码和代码之间翻译。
题目是从Codeforces、Kattis等刷题网站收集的10000道题,5000道用于训练,另外5000道作为测试集。
题干的平均长度为293.2个单词,在测试集中每道题平均有21.2个测试用例。
入门级难度 的题不需要复杂算法,有1-2年经验的程序员都能回答的那种,有3639个。
面试级难度 的题会涉及数据结构,比如树或者图,或需要修改常见的算法,有5000个。
剩下的是 竞赛级难度 ,达到USACO、IOI和ACM等竞赛的水平。
研究人员分别训练了GPT-2的1亿参数版和15亿参数版、GPT-3以及“高仿版” GPT-Neo
参数规模“只有” 27亿 的GPT-Neo和更低的GPT-2在测试用例通过率上,表现却比 1750亿 的GPT-3还要好。
在严格模式下 ,通过所有测试用例才算完全正确,成绩最好的GPT-Neo只通过了1.12%,不过这也有 56道题 了(反正比我强)。
GPT-Neo来自EleutherAI团队尝试复现GPT的开源项目。
虽然参数规模比GPT-3小得多,但训练数据包含了更多技术网站,比如Stack OverFlow和Stack Exchange等,这可能是它在代码生成上胜出的原因之一。
至于GPT-3为什么表现还不如GPT-2,有人猜测可能是它见过的文本太多,虽然擅长生成自然语言,但在逻辑和解题方面 过拟合了

如何评价AI“做题家”

论文一发出来,吃瓜群众脑洞大开。
如果我没通过面试但我写的算法通过了会怎么样?

有人回答他:
没关系,你还可以当你算法的助手。
还有很多人给出下一步建议,比如不用 自回归 的GPT,改用 自编码 语言模型会怎样?比如CodeTrans。
或者,再用一个GPT专门生成自己回答不出来的问题。
矛盾相争是吧
乐观的人 认为这是解放了人的创造力,未来编程是关于写更少的代码,做更多的架构、工程。






请到「今天看啥」查看全文