正文
这个聊天机器人擅长科学,在严格的科学考试中击败了博士。但它可能比它的前辈更能产生“幻觉”。
科技公司 OpenAI 上个月发布了其最新聊天机器人 o1 的预览版
帮助测试 OpenAI 的新型大型语言模型 OpenAI o1 的研究人员表示,它代表了
聊天机器人在科学方面的实用性
方面迈出了一大步。
“在我的量子物理学领域,它给出的响应”比该公司的上一个模型 GPT-4o 要详细和连贯得多“,德国埃尔朗根马克斯普朗克光科学研究所人工科学家实验室负责人 Mario Krenn 说。Krenn 是“红队”中为数不多的科学家之一,他们通过对机器人进行测试并检查安全问题,为总部位于加利福尼亚州旧金山的科技公司 OpenAI 测试了 o1 的预览版。
自 2022 年 ChatGPT 公开推出以来,驱动此类聊天机器人的大型语言模型平均来说变得更大更好,拥有更多的参数或决策节点;更大的训练数据集;以及在各种标准化测试或基准测试中具有更强的能力。
OpenAI 表示,
其 o1 系列
标志着该公司方法的重大转变。观察人士表示,这种人工智能 (AI) 模型的显着特点是,它在某些学习阶段花费了更多时间,并且“思考”答案的时间更长,使其速度更慢,但功能更强大——尤其是在可以明确定义正确和错误答案的领域。该公司补充说,o1 “可以推理复杂的任务,并解决比以前的科学、编码和数学模型更难的问题”。目前,o1-preview 和 o1-mini(适合编码的更小、更具成本效益的版本)可供付费客户和某些开发人员试用。该公司尚未公布有关 o1 模型背后有多少参数或多少计算能力的详细信息。
击败博士
旧金山一家专注于如何将人工智能应用于分子生物学的非营利组织 FutureHouse 的化学家安德鲁·怀特 (Andrew White) 表示,自 GPT-4 公开发布以来,过去一年半里,聊天机器人支持科学任务的能力普遍缺乏改善,观察者们对此感到惊讶和失望。他说,o1 系列改变了这一点。
引人注目的是,在一项名为研究生级 Google 证明 Q&A 基准 (GPQA) 的测试中,o1 已成为第一个在最难的一系列问题(“钻石”组)上击败博士水平学者的大型语言模型
.OpenAI 表示,其学者在 GPQA Diamond 上的得分略低于 70%,而 o1 的总体得分为 78%,物理学得分特别高,为 93%(参见“下一级别”)。这“明显高于报告的第二好的 [聊天机器人] 性能”,GPTQA 开发团队的一员 David Rein 说。Rein 现在在位于加利福尼亚州伯克利的非营利组织 Model Evaluation and Threat Research 工作,该组织致力于评估 AI 的风险。“在我看来,这代表了模型核心推理能力的重大和根本性改进,”他补充道。
OpenAI 还在国际数学奥林匹克竞赛的资格考试中测试了 o1。它之前最好的模型 GPT-4o 只正确解决了 13% 的问题,而 o1 得分为 83%。
思路链
OpenAI o1 通过使用思维链逻辑工作;它在尝试解决问题时通过一系列推理步骤与自己交谈,并在过程中纠正自己。
OpenAI 决定隐藏任何给定思维链的细节——部分原因是该链可能包含错误或社会上不可接受的“想法”,部分原因是为了保护与模型运作方式相关的公司机密。相反,o1 为用户提供了其逻辑的重建摘要以及其答案。怀特说,目前尚不清楚如果揭示完整的思维链,是否看起来与人类推理相似。
新功能需要权衡取舍。例如,OpenAI 报告称,它收到了轶事反馈,称 o1 模型产生幻觉——编造错误答案——比他们的前辈更频繁(尽管该公司的内部测试显示 o1 的幻觉发生率略低)。
红队科学家指出,o1 在制定科学实验方案方面有很多帮助,但 OpenAI 表示,测试人员还“强调了与有害步骤相关的缺失安全信息,例如不突出爆炸危险或建议不适当的化学遏制方法,指出该模型不适合用于高风险的物理安全任务”。
“它仍然不够完美或可靠,以至于你真的不想仔细检查它,”怀特说。他补充说,o1 更适合指导专家而不是新手。他说,“对于新手来说,查看 o1 生成的协议并发现它是”铺位“超出了他们的直接检查能力。
科学求解器
Krenn 认为 o1 将通过帮助扫描文献、看到缺失的内容并为未来的研究提出有趣的途径来加速科学。他已经成功地将 o1 循环到他共同开发的一个工具中,称为 SciMuse
.“它创造了比 GPT-4 或 GTP-4o 更有趣的想法,”他说。
加利福尼亚州莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 使用 o1 复制了他的博士项目中计算黑洞质量的一些编码。“我只是感到敬畏,”他说,并指出 o1 花了大约一个小时才能完成他花了好几个月才能完成的事情。
马萨诸塞州波士顿儿童医院的遗传学家凯瑟琳·布朗斯坦 (Catherine Brownstein) 表示,该医院目前正在测试包括 o1-preview 在内的几个 AI 系统,用于连接患者特征和罕见病基因之间的点等应用。她说 o1 “更准确,并提供了我认为聊天机器人不可能的选项”。
doi:https://doi.org/10.1038/d41586-024-03169-9
关注“新污染物监测与分析”公众号