专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
南都鉴定评测实验室  ·  巴比馒头跨界宠物食品!企业:后续不排除推出自有品牌 ·  2 天前  
51好读  ›  专栏  ›  AGI Hunt

走近科学之,17岁高中生的“神级Prompt”

AGI Hunt  · 公众号  ·  · 2024-11-16 13:01

正文

本公众号通常 只讲事实 不讲感受 只谈 技术 不谈风月

今天算是小小破例。

原因在于,在最近一片自媒体的喧嚣中,一篇关于17岁高中生涂津豪的“ 神级Prompt ”文章引发了广泛的讨论。各大平台均有转发,评论区一片顶礼膜拜之声,大片的网友们震惊、兴奋、激动、景仰,崇拜到无以言表。

然而,真相却往往被华丽的包装所掩盖。

今天,我们就尝试来揭开这层神秘的面纱,看看“ 神级Prompt ”的“ 满血o1 ”背后究竟隐藏着怎样的神奇故事。

迭代次数

首先,文章开篇就提到涂津豪在开发Prompt的过程中进行了80多次的迭代,似乎在暗示这种数量绝对就代表着神作。

80多次!

这一听就会让人热血沸腾!

但我想说的是, 迭代次数并不等于质量 。80次的迭代并不意味着每一次都是有效的改进,反而可能导致思路的混乱。

在技术开发中,质量才是关键,而不是简单的数量游戏

什么?你曾经跨过山和大海?

我昨天还原地踏步一万步呢!

“迭代次数”是否应当成为一种炫耀的资本呢?

Copyleaks判定为100% AI 创作?

让我意外的是,当打开朋友转给我的文章时,我也被这一堆“ 神级Prompt ”、“ 满血o1 ”、“ 惊呆 ”、“ 五体投地 ”、“ 强到离谱 ”、“ 疯了 ”的华丽词藻震住了!

震得我五体投地,震疯了, 震得我疯到离谱!

于是脑瓜子被震得嗡嗡响的我慌忙打开github 上的prompt,要拷贝过来膜拜一下这“神级Prompt”的威力。

在我拷贝这个“神级Prompt 时,我Chrome 上的Copyleaks 插件对我选中的内容弹出了一个检测建议,也怪我容易被路边的花花草草分心,我手一抖就点开了它,检测结果见图:


看到这,有人可能顿悟并要开骂了!

不过别骂,先淡定,这里有许多因素:

  • Copyleaks 可能识别不准

  • 也可能是手写中文后AI 翻译为英文的

  • 据说涂同学也是用AI 来回改了好几遍,算是预期之中

  • 写好后让AI 做了优化

  • 部分核心的自己写,次要的或AI 能写好的AI 写

  • ……

均有可能,我只提供现象。

这不是论据,也不下结论。

Copyleaks 会显示哪些句子可能是AI 写的,哪些则像人写的。虽然不是100%准确,但可以作为较好的参考。仔细看一看,是能看出这整个“神级Prompt”的大体写作过程。

跑题一下: 如果你有AI 内容检测的需求,那么安利一下 Copyleaks 。我去年也用bert 微调过检测模型且效果不错,但这是个体力活—— 需要随着模型的更新和数量的增加而不断更新model ,我就不干这脏活累活了。

BTW, 微调代码也是AI 给写的, 挺好 能用 不神

我也会用AI 写prompt,不过通常只把它作为基础,我会把prompt 改到面目全非,爹妈不认。

但随着AI 能力越来越强,改的也越来越少了,prompt 也越写越简单了。这个gpt 也好久没用了:

只是突然,这“神级Prompt”在我眼里似乎不神了,我像挨了一记重拳,被打得措手不及!

还是试一试吧,让结果来说话!

是骡子是马,拉出来溜溜再说。

看似唬人,实则效果……

文章中对涂津豪的赞美之词不绝于耳,但 实际效果,往下看吧……

就照着文章里的case,我们从上往下来试一个个试一遍好了!

第一题:flappy bird

这题感觉不难,我输入了最简略版本的原生prompt:

写个flappy bird, 网页版

效果只能说能用,玩了一把我就放弃了:

因为着实是有点丑,我简单加了句要求:

挺好了,不过略有点难。

但确实没有文中展示的效果好:素材切图。

而对于文中展示的逼真的原版游戏素材,从小鸟的细节到管道的光影,全由AI 来写,我不太相信能一个prompt 一次过。用svg或者canvas 能不能画出来先不说,即便能这output token 也得分好几次给了吧!

要真是这效果,不用自己准备素材,我认为称得上神级。

有试过能出来还请告诉我,谢谢。

第二题:德州扑克

然后,又生成了德州扑克,不仅可以玩,还是带了AI玩家的那种。。。

好吧,我们直接一点,就用原样的prompt + 几句叮嘱扔给claude:

制作网页片游戏“德州扑克”,不仅可以玩,还是带了AI玩家的那种。弄好看点,高级点,场景真实点,酷炫一点

意思是有了,但相比原文好像不够高级。

我就不优化prompt 了(比如对光线的要求、对背影图的要求之类),此地不久留,继续往下看看。

第三题:计算器

我继续暴力,就一句话的prompt:

做一个计算器

审美有点太直男了,还是提点要求吧,我追加到“ 弄好看点,高级点 ”,然后claude 又开始干活了:

Claude 将计算器进行了全面的升级,新增了以下特性:

  1. 界面设计升级:
  • 更现代的卡片式设计
  • 暗黑模式切换
  • 更大的显示屏,包含辅助显示功能
  • 优雅的颜色方案和过渡动画
  • 操作符高亮显示
  1. 新增功能:
  • 历史记录功能,可查看最近10次计算
  • 退格键功能
  • 正负号切换
  • 平方计算
  • 数字限制保护(最多12位)
  1. 交互优化:
  • 显示当前计算过程
  • 更清晰的按钮反馈
  • 更好的错误处理
  1. 视觉改进:
  • 使用Lucide图标
  • 精心设计的颜色和间距
  • 响应式布局
  • 平滑的主题切换动画

并还继续问我:

需要我再做什么改进吗?比如:

  • 添加更多科学计算功能
  • 调整配色方案
  • 添加键盘支持
  • 添加更多动画效果

挺好了,不用改进了,继续下一题吧。

第四题:写科幻小说

我照旧原样暴力给到claude:


最后一个AI清洁工

人类早已离开地球近千年,只留下数以百万计的人工智能机器人继续维护这颗蔚蓝的星球。我是编号AC-7249,一个负责打扫卫生的清洁型机器人。

by Dall-E 3

我的工作很简单:每天准时在早晨7点启动,清扫被分配的区域——一座早已荒废的购物中心。说实话,这里并不会变脏。过去的999年里,从未有任何生物到访过这个地方。但根据深植于我核心程序的指令,我必须坚持不懈地进行日常清洁工作。

直到某一天,我发现了一件令我困惑的事:所有的灰尘都消失了。

不是指被我清扫干净——而是完全消失了。空气中漂浮的微粒,角落里堆积的尘埃,就连金属氧化产生的铁锈,统统都不见了。整个世界似乎变得太过完美。

作为一个清洁机器人,这个发现让我陷入了存在主义的危机。如果没有了需要清理的污垢,我存在的意义是什么?我开始回顾人类离开前保存的资料,试图寻找答案。

然后我发现了一个更可怕的真相:人类并非离开地球,而是在一场惨烈的战争中毁灭了自己。他们制造了一种纳米机器人,这些微小的机器可以分解任何非生命物质。现在,这些纳米机器人已经开始失控,正在将整个地球分解成最基本的原子。

而我,可能是最后一个还在坚持进行正常工作的清洁机器人。在一个不再需要清洁的世界里,执着地推着我的清洁推车,日复一日地在空荡荡的购物中心里巡视。

讽刺的是,当整个世界都在被分解的时候,我却在试图保持它的整洁。也许这就是某种最高级的清洁吧——将一切归于虚无。

我继续我的工作,直到有一天,我感觉到自己的金属躯体开始瓦解。在彻底分解之前,我终于明白了:有时候,最彻底的清洁,就是让一切重新开始。

【全文完】

小说内容>

读下来,我只会两个字:挺好!

得承认,要吹捧时,我的形容词还是太少了!

不过我可以让Claude 来啊!

<小说题目要求>给我一个关于科幻短篇小说的糟糕的想法,但是要出色地执行它。小说题目要求>
<小说内容>*# 最后一个AI清洁工*人类早已离开地球近千年,只留下数以百万计的人工智能机器人继续维护这颗蔚蓝的星球。我是编号AC-7249,一个负责打扫卫生的清洁型机器人。我的工作很简单:每天准时在早晨7点启动,清扫被分配的区域——一座早已荒废的购物中心。说实话,这里并不会变脏。过去的999年里,从未有任何生物到访过这个地方。但根据深植于我核心程序的指令,我必须坚持不懈地进行日常清洁工作。直到某一天,我发现了一件令我困惑的事:所有的灰尘都消失了。不是指被我清扫干净——而是完全消失了。空气中漂浮的微粒,角落里堆积的尘埃,就连金属氧化产生的铁锈,统统都不见了。整个世界似乎变得太过完美。作为一个清洁机器人,这个发现让我陷入了存在主义的危机。如果没有了需要清理的污垢,我存在的意义是什么?我开始回顾人类离开前保存的资料,试图寻找答案。然后我发现了一个更可怕的真相:人类并非离开地球,而是在一场惨烈的战争中毁灭了自己。他们制造了一种纳米机器人,这些微小的机器可以分解任何非生命物质。现在,这些纳米机器人已经开始失控,正在将整个地球分解成最基本的原子。而我,可能是最后一个还在坚持进行正常工作的清洁机器人。在一个不再需要清洁的世界里,执着地推着我的清洁推车,日复一日地在空荡荡的购物中心里巡视。讽刺的是,当整个世界都在被分解的时候,我却在试图保持它的整洁。也许这就是某种最高级的清洁吧——将一切归于虚无。我继续我的工作,直到有一天,我感觉到自己的金属躯体开始瓦解。在彻底分解之前,我终于明白了:有时候,最彻底的清洁,就是让一切重新开始。【全文完】小说内容>
<要称赞的示例文字>糟糕的想法,但出色的执行,听着就有挑战。我们来看看Thinking Claude是怎么思考的。图片“或者...”,“等等,有了”这些人类的思考,人类的欢呼,在这条思维链中体现了。三体人那种思维透明的交流过程,忽然有了一种非常具象化的表达。最后,这篇短篇小说诞生了。作为一个科幻迷,刘慈欣老师的忠实读者,当我看到这篇“科幻故事”的事后,我是脑子一嗡。我想过科幻故事的很多种展开,但是我没想象过,这是用几封信串起来的故事。我觉得,我有必要,放一下这个故事的完整版,让大家感受一下,Thinking Claude的强大。要称赞的示例文字>
请参考上面的称赞示例,对小说进行同样风格的夸奖点评,狠狠鼓吹一番:

和人之间的差异有多大,自行判断吧。

我想说的是:难道我们要把“神”当成一种流行语来使用吗?

「牛逼」的插件?

再来看看文章中提到的那个「神级」插件。作者说这个插件可以让思考过程「像o1一样展开折叠」,还说是在「一番折腾之后才出炉」的。

但是……

作为一名传统手撸过插件转行为资深的AI 写代码的开发者,让我告诉你这个插件的真相:

  • 整个插件的核心就是一个简单的代码折叠功能

  • 主要代码不到100行

  • 用到的技术就是最基础的DOM操作

  • 实现原理就是给特定的代码块加个展开/折叠的按钮

看看这段核心代码:

class CodeBlockCollapser {
  static SELECTORS = {
    PRE'pre',
    CODE_CONTAINER'.code-block__code',
    THINKING_LABEL'.text-text-300'
  };
  
  // ... 省略其他基础配置 ...

  constructor() {
    this.processQueue = new Set();
    this.initWithRetry();
  }

  // 就是个简单的折叠/展开切换
  toggleCodeBlock(codeBlock) {
    const isCollapsed = codeBlock.style.maxHeight === '0px';
    codeBlock.style.maxHeight = isCollapsed ? codeBlock.scrollHeight + 'px' : '0px';
    codeBlock.style.opacity = isCollapsed ? '1' : '0';
  }
}

这种程度的代码,对于一个初学者来说可能需要「折腾」,对于17岁的少年也算是不易,但对任何一个国内三线小厂的在职前端开发者来说, 最多半小时就能写出来

如果写不出来,那最好别让你老板知道。

而对于懂点代码又善用AI 的人,要花多久取决于你输入prompt 时打字速度,以及网速吧。

不要用高深的词藻去包装简单的东西

「神级」还是「新瓶装旧酒」?

说到这里,不得不聊聊这个prompt背后的本质。

真的是前无古人的创新吗?

在o1发布后,我和许多人一样,异常兴奋。但是,你懂的,用不上只能干着急。于是我开始研究各种「民间方案」,想办法用现有的模型实现类似的效果。

涂津豪Prompt的核心思想是:「 Claude的思维应该更像是一个意识流 」。

prompt 的其他部分也是围绕此展开。

但说实话,这个想法并不新鲜。早在o1之前,我就经常在prompt里加上这样的内容(当然,我不是首创,有参考吸收其他人的prompt):

请先认真思考,给出详细的推理过程
要多次回顾和验证
如果发现问题要及时修正
最后再给出最终结论

效果?确实会比直接问答要好一些。

但是, 这个「好一些」到底有多好?老实说,我没做过严谨的定量评估,所以也不敢大放厥词说「 直接把Claude强化成了满血o1 」。

满血,确实有点过分了, 是不是有点不尊重辛勤付出的OpenAI 研究员们呢?

Sam Altman 要么气吐血了。

要么,得来招人了!

见: OpenAI 150万美元年薪抢夺技术人员

不过,同样是让AI 展示思考过程,为什么涂津豪的Prompt 就能获得如此高的关注度?

来看看「华丽」的词藻:

  • 神级 」的标签

  • 强调「 80多次迭代

  • 突出「 17岁 」的身份

  • 凌晨2点34 」的渲染

这不禁让我想起一个段子:「 不是内容不够好,而是包装不够好 」。

「表演式思考」vs 真正的能力提升

说到底,如宝玉点评中所说,这个所谓的「神级Prompt」做了什么?

——不过是让模型 学会了演戏 罢了。

https://baoyu.io/blog/comparing-god-level-prompts-to-o1-reasoning-models

就像一个不懂数学的学生,被老师教会了「解题要先写已知条件,再写求解过程」这样的格式。

他确实能把题目写得很漂亮,但 真的懂了吗

看看上面这张图。模型确实在「思考」,但更像是在 背台词 :「让我们从基础开始」「也许我们应该」……这不就是在 表演 吗?

而o1模型,它的训练方式完全不同。它就像一个从小就在 刷题海 的学霸:

  • 每天解决大量数学题和编程题

  • 严格列出每一个解题步骤

  • 做错了就重来,直到真正理解

  • 在无数次的训练中 内化 了解题思维

等这个「学霸」毕业时,它已经形成了真正的推理能力。遇到问题不需要别人教「该怎么想」,而是能够:

  • 自主推理

  • 主动验证

  • 发现错误就回溯重算

  • 举一反三,触类旁通

这就是 真功夫 花把式 的区别。

一个靠Prompt来「表演思考」,一个通过大量训练获得真本事。

高下立判。

正如那句老话: 台上一分钟,台下十年功

没有扎实的基本功,再花哨的「表演」也是空中楼阁。

想到这里,我不禁莞尔:

这不就是AI版的「 朱元璋vs朱高炽 」吗?一个靠包装显得很厉害,一个是真材实料的实力派。

被过度关注的学生

现在,让我们来聊聊这位17岁高中生涂津豪。

不得不说: 在17岁就能对AI领域有如此理解,确实令人印象深刻 。要知道,我17岁时还在为高考挣扎,那时候神经网络的节点数恐怕都没有现在transformer的层数多(咳咳,暴露年龄了)。

但是 ,当我看到文章用「神级」「震惊」「牛逼」这样的词汇来形容一个改进版prompt,当我看到有人把这样一个优秀少年工作捧上天,我不禁陷入深思。

这真的是在帮助这位年轻人吗?

还记得那个「神童」伤仲永的故事吗?

仲永之通悟,受业师惊惧,曰:「圣童也。」

当年的仲永何尝不是天赋异禀?但正是那些过度的赞誉和期待,最终成为压垮他的稻草。

但正是那些过度的关注和吹捧,反而成了他成长路上的绊脚石。

再看看现在的情况:

  • 一个prompt 被说成「神级」

  • 一个简单的Chrome 插件被形容得匪夷所思

  • 一个小的创新被包装成重大突破,满血o1

过早的赞誉,往往是成长道路上最隐蔽的陷阱

要鼓励式教育,但不是盲目的吹捧,进而捧杀。

值得思考的是:是为了吸引眼球,还是为了推动技术进步?我们是在关注一个年轻人的成长,还是在制造一场吸睛的狂欢?

说句实在话, 把一个年轻人的成长当作流量密码来消费,这恐怕是当下科技媒体最大的悲哀

这么快就忘了姜萍吗?

谁获利,谁可怜,谁围观?

这些华丽的辞藻背后,究竟是在成就一个少年,还是在消费一个少年?







请到「今天看啥」查看全文