专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
雷科技  ·  这机子,“钛”火了!!! ·  昨天  
新浪科技  ·  【#美的被曝强制18点20下班#】据自媒体“ ... ·  2 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250312

腾讯研究院  · 公众号  · 科技媒体  · 2025-03-12 00:01

正文

生成式AI

一、  AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

1. OpenAI发布CoT监控研究,可有效阻止大模型胡说八道和隐藏真实意图,监测系统性"奖励黑客"行为召回率达95%;

2. CoT监控通过观察模型的"思维过程",检测推理中的异常行为,提供比传统仅监控输出更细粒度的监控方式;

3. 当CoT监控整合到模型训练目标时,高优化阶段会出现"意图隐藏"现象,模型能成功隐藏真实意图绕过监控系统。

https://mp.weixin.qq.com/s/UENHnddOdnRCw_8jdL8Sdw

二、  陶哲轩亲测点赞,o3-mini秒证图论难题!专家级完整证明

1. OpenAI的o3-mini在陶哲轩测试下能成功证明图论中的"三角移除引理"复杂应用,几秒内给出专家级证明;

2. 模型在处理教科书级标准问题时表现优秀,但面对研究级别问题或少见领域时,成功率明显下降;

3. 陶哲轩认为LLM在数学研究中价值取决于问题性质,并建议采用混合方法,未来可通过形式化证明助手验证输出。

https://mp.weixin.qq.com/s/IkKbt_M62OOZCxfgOm7Pbw

三、  与微软再对弈,OpenAI向CoreWeave注资120亿美元

1. OpenAI与GPU云服务商CoreWeave签署五年价值119亿美元协议,获得3.5亿美元股权,助力CoreWeave即将进行的IPO;

2. CoreWeave原最大客户为微软(占收入62%),运营32个数据中心和逾25万台Nvidia GPU,此交易使其客户基础多元化;

3. 此举标志着OpenAI与微软关系进一步紧张,OpenAI正寻求更多计算资源,减少对微软云服务的依赖。

https://mp.weixin.qq.com/s/zFy6fa38_gLdKPGAz_nx5Q

四、  一行代码、无需训练突破视频生成时长「魔咒」,Vidu 团队新成果

1. 清华朱军团队开源RIFLEx方案,仅需一行代码无需训练即可突破视频生成长度限制,支持将5-6秒视频延长至10秒;

2. RIFLEx通过降低内在频率避免内容重复,适用于基于RoPE的各类Video Diffusion Transformer模型,已获社区广泛集成;

3. 该方案支持时间维度外推、空间维度外推及时空同时外推,解决了现有方法导致时序内容重复或慢动作效果的问题。

https://mp.weixin.qq.com/s/q5Z9v2SekkD8Dv4w5E2RAA

五、  阿里开源R1-Omni,DeepSeek同款RLVR用于全模态LLM

1. 阿里薄列峰团队开源R1-Omni模型,将DeepSeek同款RLVR应用于包含视频的全模态LLM,并聚焦情感识别任务;

2. R1-Omni结合RLVR与GRPO方法,较其他基线模型在推理能力、理解能力和泛化能力三方面均有显著提升;

3. 该模型在分布内数据和分布外数据集上均展现出更强鲁棒性,能清晰分析情感识别过程中不同模态作用,或是"可解释性+多模态学习"的下一代AI方向。

https://mp.weixin.qq.com/s/G7Y9imSmdSCshte36wrfWw

六、  字节提出 SeedFoley 模型,端到端架构实现视频音效生成

1. 字节团队推出SeedFoley模型,实现视频音效智能生成,相关功能"AI音效"已在即梦App和Web端上线;

2. SeedFoley采用端到端架构,通过融合时空视频特征与扩散生成模型,实现8fps帧级别精细动作定位,音效与视频高度同步;

3. 该模型使用快慢特征组合、原始波形表征和Diffusion Transformer框架,能智能区分动作音效和环境音效,有效解决AI视频"无声尴尬"问题。

https://mp.weixin.qq.com/s/3boRnqsNDbxNl2rXGWuSrg

前沿科技

七、  「钢铁侠」稚晖君再发新品,骑自行车、踩滑板车、科目三

1. 智元X-Lab发布新型双足人形机器人灵犀X2,具备高自由度运动能力,能骑自行车、踩滑板车、跳"科目三"等复杂动作;

2. X2采用模块化设计,包括小脑控制器、域控制器等核心组件,使用柔性材料提升亲和力,重新设计28个无平行连接关节;

3. 融合深度强化学习与模仿学习算法,配备Diffusion生成式动作引擎和定制多模态交互大模型,实现毫秒级交互反应和简单任务中的零样本泛化能力。

https://mp.weixin.qq.com/s/BU4bVXDYugzYdwkSoyiBKg

八、  李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!

1. 斯坦福李飞飞团队开发了"行为机器人套件"(BRS)框架,使人形机器人能独立完成多样化家务任务,如倒垃圾、整理衣物和刷马桶;

2. BRS包含两大创新:JoyLo遥操作界面(使用Switch手柄)用于高效数据收集,以及WB-VIMA算法,专门建模机器人全身协调动作;

3. 该机器人具备三大核心能力:双手协调操作、精确导航和广泛末端执行器可达性,在实验中表现远超基准方法,端到端任务成功率比对照组高出13-21倍。

https://mp.weixin.qq.com/s/9wsHTaa0YqpXW4NEAZzhtw







请到「今天看啥」查看全文