生成式AI
一、 AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为
1. OpenAI发布CoT监控研究,可有效阻止大模型胡说八道和隐藏真实意图,监测系统性"奖励黑客"行为召回率达95%;
2. CoT监控通过观察模型的"思维过程",检测推理中的异常行为,提供比传统仅监控输出更细粒度的监控方式;
3. 当CoT监控整合到模型训练目标时,高优化阶段会出现"意图隐藏"现象,模型能成功隐藏真实意图绕过监控系统。
https://mp.weixin.qq.com/s/UENHnddOdnRCw_8jdL8Sdw
二、 陶哲轩亲测点赞,o3-mini秒证图论难题!专家级完整证明
1. OpenAI的o3-mini在陶哲轩测试下能成功证明图论中的"三角移除引理"复杂应用,几秒内给出专家级证明;
2. 模型在处理教科书级标准问题时表现优秀,但面对研究级别问题或少见领域时,成功率明显下降;
3. 陶哲轩认为LLM在数学研究中价值取决于问题性质,并建议采用混合方法,未来可通过形式化证明助手验证输出。
https://mp.weixin.qq.com/s/IkKbt_M62OOZCxfgOm7Pbw
三、 与微软再对弈,OpenAI向CoreWeave注资120亿美元
1. OpenAI与GPU云服务商CoreWeave签署五年价值119亿美元协议,获得3.5亿美元股权,助力CoreWeave即将进行的IPO;
2. CoreWeave原最大客户为微软(占收入62%),运营32个数据中心和逾25万台Nvidia GPU,此交易使其客户基础多元化;
3. 此举标志着OpenAI与微软关系进一步紧张,OpenAI正寻求更多计算资源,减少对微软云服务的依赖。
https://mp.weixin.qq.com/s/zFy6fa38_gLdKPGAz_nx5Q
四、 一行代码、无需训练突破视频生成时长「魔咒」,Vidu 团队新成果
1. 清华朱军团队开源RIFLEx方案,仅需一行代码无需训练即可突破视频生成长度限制,支持将5-6秒视频延长至10秒;
2. RIFLEx通过降低内在频率避免内容重复,适用于基于RoPE的各类Video Diffusion Transformer模型,已获社区广泛集成;
3. 该方案支持时间维度外推、空间维度外推及时空同时外推,解决了现有方法导致时序内容重复或慢动作效果的问题。
https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA
五、 阿里开源R1-Omni,DeepSeek同款RLVR用于全模态LLM
1. 阿里薄列峰团队开源R1-Omni模型,将DeepSeek同款RLVR应用于包含视频的全模态LLM,并聚焦情感识别任务;
2. R1-Omni结合RLVR与GRPO方法,较其他基线模型在推理能力、理解能力和泛化能力三方面均有显著提升;
3. 该模型在分布内数据和分布外数据集上均展现出更强鲁棒性,能清晰分析情感识别过程中不同模态作用,或是"可解释性+多模态学习"的下一代AI方向。
https://mp.weixin.qq.com/s/G7Y9imSmdSCshte36wrfWw
六、 字节提出 SeedFoley 模型,端到端架构实现视频音效生成
1. 字节团队推出SeedFoley模型,实现视频音效智能生成,相关功能"AI音效"已在即梦App和Web端上线;
2. SeedFoley采用端到端架构,通过融合时空视频特征与扩散生成模型,实现8fps帧级别精细动作定位,音效与视频高度同步;
3. 该模型使用快慢特征组合、原始波形表征和Diffusion Transformer框架,能智能区分动作音效和环境音效,有效解决AI视频"无声尴尬"问题。
https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg
前沿科技
七、 「钢铁侠」稚晖君再发新品,骑自行车、踩滑板车、科目三
1. 智元X-Lab发布新型双足人形机器人灵犀X2,具备高自由度运动能力,能骑自行车、踩滑板车、跳"科目三"等复杂动作;
2. X2采用模块化设计,包括小脑控制器、域控制器等核心组件,使用柔性材料提升亲和力,重新设计28个无平行连接关节;
3. 融合深度强化学习与模仿学习算法,配备Diffusion生成式动作引擎和定制多模态交互大模型,实现毫秒级交互反应和简单任务中的零样本泛化能力。
https://mp.weixin.qq.com/s/BU4bVXDYugzYdwkSoyiBKg
八、 李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!
1. 斯坦福李飞飞团队开发了"行为机器人套件"(BRS)框架,使人形机器人能独立完成多样化家务任务,如倒垃圾、整理衣物和刷马桶;
2. BRS包含两大创新:JoyLo遥操作界面(使用Switch手柄)用于高效数据收集,以及WB-VIMA算法,专门建模机器人全身协调动作;
3. 该机器人具备三大核心能力:双手协调操作、精确导航和广泛末端执行器可达性,在实验中表现远超基准方法,端到端任务成功率比对照组高出13-21倍。
https://mp.weixin.qq.com/s/9wsHTaa0YqpXW4NEAZzhtw