专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
CDA数据分析师  ·  【转行】一个失业的阿里P9,对未来很迷茫…… ·  5 天前  
人工智能与大数据技术  ·  高中生用 AI ... ·  4 天前  
国家数据局  ·  专家解读 | ... ·  4 天前  
数据派THU  ·  Science正刊|蛋白质语言模型EVOLV ... ·  5 天前  
51好读  ›  专栏  ›  玉树芝兰

最强思考 o1 Pro + 最佳搜索Perplexity 双剑合璧,能帮你做什么?

玉树芝兰  · 公众号  · 大数据  · 2024-12-13 08:26

正文

(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费


享受你自己的「军师联盟」。

缘起

探索这个问题,起因来自知识星球上星友 Jcak 的提问。



Jcak 问道:

王老师,请问 Google 最新的量子芯片是不是标志着计算复杂性已经没有可研究的了?


其实当我看到这个问题时,立刻就意识到自己在量子计算和计算理论方面都并不擅长。我上研究生时,确实曾经学习过计算理论,但多年不用,也早已忘得差不多了。如果在从前,我会直接坦率承认说自己不会。


毕竟每个人的知识面都有限,不懂并不丢人。但这次情况着实特殊。


因为上午组会,我才刚向学生强调有了 AI 就不存在 「不会」 的借口。如果遇到不懂的问题,有 AI 搜索引擎可以帮忙查。直接问 AI 啊。

上午刚言之凿凿训导完学生,结果下午就不查询 AI 直接说「不会」,这似乎不够「知行合一」,哈哈。

于是,我决定借助 AI 搜索引擎来补足知识空缺。

尝试

我首先打开了 AI 搜索引擎 Perplexity,并把问题完整地抛给它:

Google 最新的量子芯片是不是标志着计算复杂性已经没有可以研究的了?

一如既往,Perplexity 的回答是先给观点。



之后,给出了支撑原因和相关论据来源。


Perplexity 的回答,暂不谈是否正确,我先要为你指出一个关键问题。

如果你用中文提问 Perplexity,它倾向于从中文信源中找资料。

不过,这些它常用的中文信源,并非总是主流期刊或官方媒体,而可能是转手多次的「二手」新闻来源。



虽然「二手」未必不准确。但回答严肃研究问题时,我们更希望获取一手信息来源。

至少在我们这个问题背景下,由于 Google 是美国企业,一手资料通常在英文资料中,而非多重转译后的中文内容里。

因此,我还是使用自己总结出来的技巧,对 Perplexity 提出明确要求:请从最新英文资料中查询,但用简体中文回答。



这样做能解决两个问题:

第一,它能从更原始的一手英文新材料获取信息。

第二,它用中文回答,确保你能读懂,而不必直接面对英文答案。


再次询问后,Perplexity 的回答果然不同。


它提到了突破性的成就,并列出 BBC、NY Times、Fox Business 等更直接的英文信源。


这是不是比使用中文二手、三手来源更接近事实本源?

可惜,查看 Perplexity 的回答后,我发现一个新问题。

它列出了工程挑战、错误率、应用范围,却没有将量子芯片进展与计算复杂性理论的研究空间变化深度关联。看似靠谱,其实「所答非所问」。


看来 Perplexity 擅长事实性回答,对推理、逻辑严谨论证仍有局限。因为尽管 Perplexity Pro 拥有 “工作流反思” 方式,但背后应用的大模型在推理上仍然不够理想。

问题来了,有没有更擅长推理的模型呢?

推理

答案是有的,就是 o1 及其强化版 o1 Pro 。

上周 OpenAI 在万众期待中,「千呼万唤始出来」总算推出 o1 正式版与 o1 Pro 进阶版本。从下图中,你不难看出,o1 正式版在思考推理方面胜过此前的顶流推理思考模型 o1 Preview 版本。


而 o1 Pro 更加强大,比起 o1 更进一步提升了推理与逻辑能力。

当然了,价格也很感人。

目前你必须订阅尊贵的 ChatGPT pro 账户,才能使用 o1 pro。

……

我们看看 o1 Pro 的推理能力对于回答这个问题能否有帮助。不过请你注意 o1 Pro 没有联网查询功能。


直接问它关于 Google 最新量子芯片的问题,它只能依赖内部旧信息。我用同样的问题(Google 最新的量子芯片是不是标志着计算复杂性已经没有可研究的了?)尝试提问 o1 Pro Mode,它思考了足足 40 秒后,才给出回答。


答案的第一句就让人泄气 —— 它提到了 Google 在 2019 年的量子芯片,与 「最新」 二字相去甚远。这表明它对当下的突破性进展并不了解,输出的是过时信息。在这种情况下,无论 o1 Pro 的推理多么严谨,咱们也没必要再继续看它的回答了。因为答案无法反映提问者关心的 2024 年 12 月量子芯片最新进展对计算复杂性的真正影响。

反思

我突然想到,Perplexity 和 o1 pro 的问题测试,恰恰因应了古人「学而不思则罔,思而不学则殆」的论述。

Perplexity 可谓 “学而不思则罔”,因为它能查资料但推理不够深。

o1 Pro 可谓 “思而不学则殆”,因为它能推理但缺乏最新知识的掌握。


那问题自然就转化成了 —— 如何结合两者?若是用 Perplexity 查询最新资料,然后用 o1 Pro 进行推理整合,岂不就是同时兼具 “学” 与 “思” 的策略?

只不过,这事儿说起来容易,实际操作中却会立即遇到问题:

Perplexity 给出的信息过于精炼、太短,不足以为 o1 Pro 提供足够资料。只更新一点信息,背景知识不足,最终推理恐怕也不扎实。

可反过来,如果咱们追逐搜集太多信息,又有可能给 o1 pro 盲目添加无关、干扰性的资料,效果也未必好。

怎么办呢?