Nature：“敬畏”：科学家们对最新的 ChatGPT 模型 o1 印象深刻

人工智能学家 · 公众号 · AI · 2024-10-03 16:11

正文

这个聊天机器人擅长科学，在严格的科学考试中击败了博士。但它可能比它的前辈更能产生“幻觉”。

科技公司 OpenAI 上个月发布了其最新聊天机器人 o1 的预览版

帮助测试 OpenAI 的新型大型语言模型 OpenAI o1 的研究人员表示，它代表了聊天机器人在科学方面的实用性方面迈出了一大步。

“在我的量子物理学领域，它给出的响应”比该公司的上一个模型 GPT-4o 要详细和连贯得多“，德国埃尔朗根马克斯普朗克光科学研究所人工科学家实验室负责人 Mario Krenn 说。Krenn 是“红队”中为数不多的科学家之一，他们通过对机器人进行测试并检查安全问题，为总部位于加利福尼亚州旧金山的科技公司 OpenAI 测试了 o1 的预览版。

自 2022 年 ChatGPT 公开推出以来，驱动此类聊天机器人的大型语言模型平均来说变得更大更好，拥有更多的参数或决策节点;更大的训练数据集;以及在各种标准化测试或基准测试中具有更强的能力。

OpenAI 表示，其 o1 系列标志着该公司方法的重大转变。观察人士表示，这种人工智能（AI）模型的显着特点是，它在某些学习阶段花费了更多时间，并且“思考”答案的时间更长，使其速度更慢，但功能更强大——尤其是在可以明确定义正确和错误答案的领域。该公司补充说，o1 “可以推理复杂的任务，并解决比以前的科学、编码和数学模型更难的问题”。目前，o1-preview 和 o1-mini（适合编码的更小、更具成本效益的版本）可供付费客户和某些开发人员试用。该公司尚未公布有关 o1 模型背后有多少参数或多少计算能力的详细信息。

击败博士

旧金山一家专注于如何将人工智能应用于分子生物学的非营利组织 FutureHouse 的化学家安德鲁·怀特（Andrew White）表示，自 GPT-4 公开发布以来，过去一年半里，聊天机器人支持科学任务的能力普遍缺乏改善，观察者们对此感到惊讶和失望。他说，o1 系列改变了这一点。

引人注目的是，在一项名为研究生级 Google 证明 Q&A 基准（GPQA）的测试中，o1 已成为第一个在最难的一系列问题（“钻石”组）上击败博士水平学者的大型语言模型 .OpenAI 表示，其学者在 GPQA Diamond 上的得分略低于 70%，而 o1 的总体得分为 78%，物理学得分特别高，为 93%（参见“下一级别”）。这“明显高于报告的第二好的 [聊天机器人] 性能”，GPTQA 开发团队的一员 David Rein 说。Rein 现在在位于加利福尼亚州伯克利的非营利组织 Model Evaluation and Threat Research 工作，该组织致力于评估 AI 的风险。“在我看来，这代表了模型核心推理能力的重大和根本性改进，”他补充道。

OpenAI 还在国际数学奥林匹克竞赛的资格考试中测试了 o1。它之前最好的模型 GPT-4o 只正确解决了 13% 的问题，而 o1 得分为 83%。

思路链

OpenAI o1 通过使用思维链逻辑工作;它在尝试解决问题时通过一系列推理步骤与自己交谈，并在过程中纠正自己。

OpenAI 决定隐藏任何给定思维链的细节——部分原因是该链可能包含错误或社会上不可接受的“想法”，部分原因是为了保护与模型运作方式相关的公司机密。相反，o1 为用户提供了其逻辑的重建摘要以及其答案。怀特说，目前尚不清楚如果揭示完整的思维链，是否看起来与人类推理相似。

新功能需要权衡取舍。例如，OpenAI 报告称，它收到了轶事反馈，称 o1 模型产生幻觉——编造错误答案——比他们的前辈更频繁（尽管该公司的内部测试显示 o1 的幻觉发生率略低）。

红队科学家指出，o1 在制定科学实验方案方面有很多帮助，但 OpenAI 表示，测试人员还“强调了与有害步骤相关的缺失安全信息，例如不突出爆炸危险或建议不适当的化学遏制方法，指出该模型不适合用于高风险的物理安全任务”。

“它仍然不够完美或可靠，以至于你真的不想仔细检查它，”怀特说。他补充说，o1 更适合指导专家而不是新手。他说，“对于新手来说，查看 o1 生成的协议并发现它是”铺位“超出了他们的直接检查能力。

科学求解器

Krenn 认为 o1 将通过帮助扫描文献、看到缺失的内容并为未来的研究提出有趣的途径来加速科学。他已经成功地将 o1 循环到他共同开发的一个工具中，称为 SciMuse .“它创造了比 GPT-4 或 GTP-4o 更有趣的想法，”他说。

加利福尼亚州莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 使用 o1 复制了他的博士项目中计算黑洞质量的一些编码。“我只是感到敬畏，”他说，并指出 o1 花了大约一个小时才能完成他花了好几个月才能完成的事情。

马萨诸塞州波士顿儿童医院的遗传学家凯瑟琳·布朗斯坦（Catherine Brownstein）表示，该医院目前正在测试包括 o1-preview 在内的几个 AI 系统，用于连接患者特征和罕见病基因之间的点等应用。她说 o1 “更准确，并提供了我认为聊天机器人不可能的选项”。

doi：https://doi.org/10.1038/d41586-024-03169-9

关注“新污染物监测与分析”公众号

Nature：“敬畏”：科学家们对最新的 ChatGPT 模型 o1 印象深刻

正文

这个聊天机器人擅长科学，在严格的科学考试中击败了博士。但它可能比它的前辈更能产生“幻觉”。

击败博士

思路链

科学求解器

请到「今天看啥」查看全文