专栏名称: 环球科学
《科学美国人》独家授权中文版—《环球科学》杂志—www.huanqiukexue.com
目录
相关文章推荐
科普中国  ·  为何一到过年,很多家庭就吵架? ·  昨天  
吉林市场监管  ·  酱油如何储存和使用更安全? ·  5 天前  
乌兰察布云  ·  就在明天,准备观赏! ·  5 天前  
51好读  ›  专栏  ›  环球科学

OpenAI公布新一代AI推理模型o3,几分钟解决人类数学家耗时数天的难题,某些条件下接近通用人工智能 | 环球科学要闻

环球科学  · 公众号  · 科学  · 2024-12-23 12:19

主要观点总结

本文报道了科学领域的最新进展,包括人工智能、物理、医学以及航天等方面的消息。其中,OpenAI公布了新的AI推理模型o3,其在ARC-AGI评估和EpochAI Frontier Math测试中表现出色;物理领域关注氢化物超导研究的争议;医学领域,礼来公司的减肥药物Zepbound获FDA批准用于治疗阻塞性睡眠呼吸暂停;美国物理学会公布了2024年度亮点工作,包括无需样本测量血糖、观测太阳中微子雾等。同时,我国宇航员创造了单次出舱活动时长的新世界纪录。

关键观点总结

关键观点1: OpenAI公布新的AI推理模型o3,在评估测试中表现优异

OpenAI发布了新的AI推理模型o3和o3 mini,作为o1模型之后的下一代AI模型,o3在软件工程、编写代码、竞赛数学和掌握人类博士级别科学知识能力等方面均强于o1。o3在ARC-AGI评估中获得破纪录分数,达到代表人类水平的门槛,并且在EpochAI Frontier Math测试中解决了25.2%的问题。

关键观点2: 氢化物超导研究引起争议,物理领域专家发表评论文章审查该领域的关键性论文

过去几年里,高压氢化物一直是超导研究领域的一个研究热点。最近,一篇评论文章审查了该领域的6篇关键性论文,得出结论认为氢化物具有超导性的证据大量存在。但这一领域也存在争议,涉及科学欺诈问题。专家团队由从未直接研究氢化物超导的研究人员组成,他们通过检查数据和评估实验技术来验证氢化物超导性的两个证据。

关键观点3: 礼来公司的减肥药物Zepbound获FDA批准,用于治疗阻塞性睡眠呼吸暂停

Zepbound是一种替泽帕肽(Tirzepatide)药物,用于治疗肥胖成人中度至重度的OSA。它通过减少呼吸中断次数和改善体重减轻来改善睡眠质量。然而,这种药物可能导致甲状腺癌等副作用。

关键观点4: 美国物理学会公布2024年度亮点工作,包括测量血糖、观测太阳中微子雾等

美国物理学会公布了2024年度亮点工作,包括无需样本即可测量血糖的技术、观测太阳中微子雾的实验、核聚变反应的进展等。此外,还涉及机械测量核衰变、证实第三种磁性、在城市光纤中传输纠缠光子等前沿领域的进展。

关键观点5: 我国宇航员完成首次出舱活动,打破单次出舱活动时长世界纪录

我国宇航员蔡旭哲、宋令东、王浩泽完成了首次出舱活动,用时9小时,刷新了中国航天员单次出舱活动时长纪录。这次活动也标志着我国航天员在航天领域的不断进步和发展。


正文

将环球科学 设为星标
周一至周五
第一时间掌握
最新鲜的全球科技资讯


· 人工智能 ·
OpenAI公布新一代AI推理模型o3,某些条件下已接近通用人工智能

o3在ARC-AGI评估中已达到代表人类水平的门槛(图片来源:OpenAI)


当地时间12月20日,OpenAI公布了其新的人工智能(AI)推理模型——o3和o3 mini,作为o1模型之后的下一代AI模型。o3在软件工程、编写代码、竞赛数学和掌握人类博士级别科学知识能力等方面均强于o1。据悉,OpenAI将确保新模型的可靠性和安全性后再提供给更广泛的用户使用,因此o3 mini将于2025年1月底前正式推出,而完整版的o3将在之后推出。目前,OpenAI官网已开放o3-mini模型的早期访问申请


据悉,o3在ARC-AGI评估(用来测试AI模型对困难数学和逻辑问题推理能力的基准测试)中获得了破纪录的分数,o3的最高分数可达87.5%,已经达到了代表人类水平的门槛(85%),这说明o3在某些条件下可以接近实现通用人工智能(AGI)。而在OpenAI研究人员认为最严格的基准测试之一——EpochAI Frontier Math中,o3也解决了25.2%的问题,而其他模型均未超过2%。EpochAI Frontier Math测试曾被陶哲轩评价为“可能难住AI好几年”,连人类专业数学家解决其中一道题目也要花费数小时到数天,而o3只需思考几分钟。


尽管OpenAI在o3模型上取得了重大突破,但据《华尔街日报》(The Wall Street Journal)消息,OpenAI的GPT-5模型开发工作(代号为Orion)却进展缓慢。据报道,OpenAI已经进行至少两次大规模的GPT-5训练,每次都需用数月来处理大量数据,但每次都会出现新问题,而且成果仅比OpenAI目前提供的产品性能稍好一些。这意味着更大规模的训练运行可能会耗费极其漫长的时间,同时又会使成本陡增。据悉,仅6个月的GPT-5训练,纯计算成本就高达约5亿美元。此外,为了解决数据不足的问题,OpenAI目前正在从头开始创建数据:雇用人员编写新的软件代码或解决数学问题,以供大模型学习。(OpenAI,《华尔街日报》)



· 物理学 ·

超导专家为备受争议的氢化物发声


过去几年里,高压氢化物一直是超导研究领域中的一个研究热点。不过该领域最近引起的关注多与科学欺诈有关,这引起了极大的争论:高压氢化物究竟是否具有超导性。这让从事该领域年轻的研究人员感到担忧。最近,一篇发表在《自然评论:物理学》Nature Review Physics)的评论文章审查了该领域的6篇关键性论文,得出结论是有大量证据表明氢化物具有超导性。


这篇文章的作者团队由15位最多产的超导研究人员组成,为了确保对科学事实进行公正的审查,该小组全部是从未直接研究氢化物超导的研究人员。作者团队的成员各自独立地检查了数据,并组成了一些小组来评估特定的实验技术。研究者通过测量材料的电阻和磁化强度来检查超导性的两个证据,即零电阻效应和迈纳斯效应。但氢化物材料的不确定性比此前任何材料都要高,因为材料的不均匀性导致给定样品中只有部分存在超导,这让实验进行得异常艰难。但几个团队的电阻测量以及磁化强度测量结果表明,某种氢化物具有超导性的可能绝对存在。作者团队希望借助这篇文章挽救该领域的声誉,他们也强调了与氢化物实验的技术挑战,未来或许可以尝试开发基于金刚石-氮空位(NV色心的传感器技术。但同时科学家Jorge Hirsch却对这项工作表示怀疑,他认为作者团队是出于坚信解释常规超导的微观理论(BCS理论有效而完成这项研究,而他曾对BCS理论提出过质疑。



· 医学 ·
礼来减肥药获批治疗阻塞性睡眠呼吸暂停,但可能导致甲状腺癌

图片来源:Pixabay


阻塞性睡眠呼吸暂停(OSA)会导致患者在睡眠时呼吸短暂停止,这会扰乱睡眠周期,并导致心脏病等长期并发症。目前,这种疾病影响着全球大约十亿人。常见治疗方法包括持续气道正压通气机(即睡觉时戴上面罩,PAP)、手术以及减肥。据礼来官网消息,当地时间12月20日,美国食品和药物管理局(FDA)批准了礼来公司的减肥药物Zepbound用于治疗肥胖成人中度至重度的OSA,使其成为第一个直接治疗常见睡眠障碍患者的药物


Zepbound和礼来公司的糖尿病药物Mounjaro的化学名称均为替泽帕肽(Tirzepatide),属于一类称为GLP-1激动剂的药物。这款药物最初是为2型糖尿病开发的,它们可以减少对食物的渴望,并导致胃排空速度更慢。据路透社(Reuters)消息,FDA的批准基于涉及469名参与者的试验的数据。试验评估了Zepbound(10毫克或15毫克)治疗肥胖成人患者中度至重度OSA(伴有或不伴有PAP)的情况,为期一年。对于未接受PAP治疗的成年人来说,Zepbound在减少呼吸中断方面的效果比安慰剂高约5倍,使用Zepbound可使每小时呼吸中断减少25次,而安慰剂则减少5次。在接受PAP治疗的成年人中,Zepbound每小时呼吸中断次数减少29次,而安慰剂组为6次。一年后,在服用Zepbound的成人中有42%以及接受Zepbound联合PAP治疗的成人中有50%出现OSA缓解或症状减轻、甚至无症状的情况,而安慰剂组的这一比例分别为16%和14%。除了改善OSA症状外,服用Zepbound的成人平均体重减轻了大概20千克,而服用Zepbound并接受PAP治疗的成人平均体重减轻了大概22千克。


据礼来官网消息,Zepbound不应与其他含有替泽帕肽的产品或任何GLP-1受体激动剂药物一起使用。目前尚不清楚它对儿童使用是否安全有效。Zepbound可能会导致甲状腺肿瘤,包括甲状腺癌。服用者需要留意可能出现的症状,例如颈部肿块或肿胀、声音嘶哑、吞咽困难或呼吸急促。其最常见的副作用包括恶心、腹泻、呕吐、便秘、注射部位反应、感觉疲倦等等。(礼来官网,Reuters



· 科学突破 ·

美国物理学会公布2024十大年度亮点,PandaX入选


图片来源:APS/Alan Stonebraker


12月16日,美国物理学会(APS)《物理》(Physics)杂志公布了2024年度亮点工作

1.钍核钟将至:研究人员今年实现了制造核钟时的一项重要突破,他们测量了目前被认为唯一可用于构建核钟的同核异能素钍-229m的原子核跃迁频率,该测量需要用相干激光将原子核基态激发到低能激发态,而这被认为是构建核钟的关键步骤。


2.无需样本即可测量血糖:当前测量人体血液中葡萄糖水平的方法依赖于直接从血液样本,或间接从汗水等体液中测量。但今年发布的一项可穿戴环形设备,无需采集样本,而是通过向佩戴者手指发射射频信号,以连续监测佩戴者血液中的葡萄糖水平。


3.观测到太阳中微子雾:2024年,PandaX和XENON两个实验组各自独立报告,其探测器可能已经开始观测到太阳“中微子雾”。从长远来看,中微子雾可能对暗物质搜寻构成干扰,但能够测量到这些太阳中微子雾,已能证明这些暗物质探测器的灵敏度。研究人员一致认为,这种中微子对暗物质探测的影响要到数年后下一代实验启动运行时才会显现。这项成果也表明,暗物质探测器可以变成多功能探测器,用于探测中微子物理的各个方面。


4.聚变反应证实超越盈亏平衡:美国国家点火设施(NIF)2022年核聚变反应产生的能量多于消耗的能量的演示已得到正式验证。今年2月发表的5份同行评审报告,描述了激光诱导聚变的这一里程碑。NIF的研究人员分析了2021年3月和8月实验的聚变反应机制,发现反应舱内等离子体的体积增加4倍,聚变能量输出相应增加20倍。尽管报道的聚变能产率低于操作系统激光器所需的电能,但研究团队正在进行改进以提高反应和激光效率。


5.机械测量核衰变:今年7月发表的一项研究中,研究小组将几十个放射性铅-212原子嵌入微观硅珠的表面,然后将其悬浮在光阱中。铅原子核的α和β衰变会改变硅珠的净电荷,这种变化会表现在珠子对振荡电场的响应中。此外,核衰变引起珠子动量的变化,也让研究人员得以通过观察珠子散射光的方式来测量核衰变。


6.证实第三种磁性:此前科学家认为只存在铁磁体与反铁磁体两类材料。但过去几年中有多个团队提出,可能存在介于二者之间的交错磁体。这类材料缺乏净磁化强度(如反铁磁体),但具有磁敏感能级(如铁磁体)。今年,交错磁体的实验证据开始逐渐涌现。一项研究表明,碲化锰的电子能带可以在磁场下劈裂,这正是交错磁体理论预测的一项特性。


7.在城市光纤中传输纠缠光子:光子的量子纠缠非常脆弱,特别是在商业光纤通信线路不可预测和波动的条件下。为了发展未来可以连接量子处理器的量子网络,研究人员尝试通过纽约市地下34千米长的光纤环路每秒连续发送20 000个纠缠光子,这项工作持续了两周,且无需像过去那样频繁地校准。







请到「今天看啥」查看全文