主要观点总结
本文讨论了作者对OpenAI的reflection模型的失望情绪,以及使用OpenAI o1 Preview模型时的体验。作者提到自己在使用reflection模型时遇到的一些问题,以及对o1 Preview模型在作词和遵循Lisp提示词方面的表现感到失望。文章还涉及作者对OpenAI对话次数限制的不满,以及后来额度提高的喜悦。
关键观点总结
关键观点1: 作者对reflection模型的失望情绪。
作者提到被reflection 70B模型误导的经历,对reflection模型产生了负面印象。
关键观点2: OpenAI o1 Preview模型的使用体验。
作者使用o1 Preview模型进行作诗和遵循Lisp提示词测试,发现模型在数字数和svg绘图方面存在问题。
关键观点3: 作者对OpenAI对话次数限制的不满。
作者提到OpenAI每周对话次数的限制,对此感到懊恼,后来额度调高到50次后感到喜悦。
关键观点4: 文章的转机。
尽管作者对OpenAI的模型表现有所失望,但文章最后提到作者对未来仍有所期待,留下了一线希望。
正文
(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户
请勿重复付费
)
OpenAI o1 刚出来的时候,我其实对这种 reflection 模型有点儿免疫了。因为刚刚被 reflection 70B 模型诳过一回。
第一时间,我打开 Openrouter 试用 Reflection 70B。结果发现 9.11 还是 “大于” 9.9. 你说,这让人情何以堪?
到目前为止,reflection 模型究竟是发布的时候出现技术错误,导致调用了其他模型,还是一开始就在哗众取宠,依然没个定论。所以咱们暂且不做评价。
不过,这个模型给部分人群对 reflection 模型带来的认知负面印象,那却是实打实的。
教训归教训,但 o1 Preview 毕竟是 OpenAI 出的模型,而且传言它就是那个神奇的「草莓」。于是拿到 o1 Preview 之后,我还是立即测试了一下。
我第一步要求它做的,也不是什么正经事儿,而是作诗。准确的说,是写「宋词」。
之前在 GPT-4 时代,词牌从来没有被大模型正常使用。这次,我试试 o1 效果如何。
o1 明明已经知道了,每一句话应该是多少字,但是它自己数字数的时候,却真是 “睁着眼睛说瞎话”。我对这种弱智的行为非常愤慨,也很无奈。但是这一通的对话,却着实费了我 10 余次的使用额度。
我是到这时候,才知道 OpenAI 定的
每周
30 次对话限制,所以非常懊恼。好在后来,OpenAI 大发慈悲,自己把这个额度调高到了 50。
而后我就在想,这东西究竟能干啥呢?我突然想起来前几天的 “汉语新解”,以及它带来的 Lisp 提示词热潮。