专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
数据派THU  ·  实值无标签图文跨模态检索研究综述 ·  3 天前  
玉树芝兰  ·  如何安装和设置 Go 版本的 fabric ... ·  昨天  
软件定义世界(SDX)  ·  艾瑞咨询:2024年中国金融大模型产业发展洞察报告 ·  6 天前  
数据派THU  ·  干货 | 石化政策分析模型开发 ·  6 天前  
51好读  ›  专栏  ›  玉树芝兰

反思式思维链大模型 o1 有啥用?

玉树芝兰  · 公众号  · 大数据  · 2024-09-28 14:55

正文

(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费


失望

OpenAI o1 刚出来的时候,我其实对这种 reflection 模型有点儿免疫了。因为刚刚被 reflection 70B 模型诳过一回。



第一时间,我打开 Openrouter 试用 Reflection 70B。结果发现 9.11 还是 “大于” 9.9. 你说,这让人情何以堪?

到目前为止,reflection 模型究竟是发布的时候出现技术错误,导致调用了其他模型,还是一开始就在哗众取宠,依然没个定论。所以咱们暂且不做评价。

不过,这个模型给部分人群对 reflection 模型带来的认知负面印象,那却是实打实的。

教训归教训,但 o1 Preview 毕竟是 OpenAI 出的模型,而且传言它就是那个神奇的「草莓」。于是拿到 o1 Preview 之后,我还是立即测试了一下。

我第一步要求它做的,也不是什么正经事儿,而是作诗。准确的说,是写「宋词」。

之前在 GPT-4 时代,词牌从来没有被大模型正常使用。这次,我试试 o1 效果如何。

结果呢,效果依然不咋样。

o1 明明已经知道了,每一句话应该是多少字,但是它自己数字数的时候,却真是 “睁着眼睛说瞎话”。我对这种弱智的行为非常愤慨,也很无奈。但是这一通的对话,却着实费了我 10 余次的使用额度。

我是到这时候,才知道 OpenAI 定的每周 30 次对话限制,所以非常懊恼。好在后来,OpenAI 大发慈悲,自己把这个额度调高到了 50。

而后我就在想,这东西究竟能干啥呢?我突然想起来前几天的 “汉语新解”,以及它带来的 Lisp 提示词热潮。

我把 “汉语新解” 0.3 版本的 Lisp 提示词给了 o1 Preview ,满心期待它能够输出更有趣的解释。

要说文字部分,我觉得还可以。但是显然,o1 Preview 没有能够正确输出 svg 绘图这一部分。

既不能按词牌写 “宋词”,又不能完全遵从 Lisp 提示词画 svg 图。我想起了《我爱我家》里面和平对志新的评价 ——“文不能测字儿,武不能卖拳”。

转机