专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20250213

腾讯研究院 · 公众号 · 科技媒体 · 2025-02-13 00:01

正文

生成式AI

一、 10万颗先进AI芯片，欧盟官宣AI超级工厂InvestAI计划

1. 欧盟启动InvestAI计划，调动2000亿欧元投资AI领域，建设4座AI超级工厂，配备10万颗先进AI芯片；

2. 采用公私合作模式，通过分层基金结构降低投资风险，吸引私人资本，让各类企业都能获得算力资源支持；

3. 将建立欧洲AI研究委员会，整合资源推动AI发展，并推出"应用AI"计划促进工业应用落地。

二、 o3拿下IOI 2024金牌！新论文公布RL秘诀，无需人类干预

1. OpenAI的o3模型在IOI 2024竞赛中获得395.64分，超过金牌线，且在CodeForces测试中达到2724分，超越99.8%选手；

2. o3通过端到端强化学习，无需人工干预即可自主开发验证策略，性能超过需要人工设计策略的o1-ioi；

3. 推理模型在实际软件工程任务上表现优异，o3在SWE-bench测试中比o1提升22.8%。

三、 GameArena团队发布LLM的测试神器，不考数学，考游戏

1. GameArena团队开发的Roblox实时游戏"AI空间逃脱"通过三种推理游戏测试AI性能，比传统方法更具互动性；

2. 游戏包含猜词、禁忌词和虚张声势三种类型，测试AI在多轮对话中的推理和上下文理解能力；

3. Claude-3.5-sonnet和Gemini-1.5-pro等对齐模型表现优异，游戏评估获得87%有效反馈率，远超传统方法。

四、「分层RL推理」ReasonFlux框架，32B碾压o1-preiview？

1. 普林斯顿和北大团队开发的ReasonFlux-32B仅用8块A100，在MATH和AIME等数学基准测试中超越o1-preview和DeepSeek V3；

2. ReasonFlux构建约500个高层次思维模板库，通过分层强化学习优化推理路径，减少搜索空间；

3. 新框架在MATH基准达91.2%准确率超o1-preview 6.7%，AIME达56.7%领先27%，展现强大数学推理能力。

五、深度循环「隐式推理」论文引发AI圈讨论，将越思维链方法？

1. 马里兰大学提出深度循环语言模型架构，通过潜在空间隐式推理，3.5B参数模型可达到50B模型性能；

2. 无需专门训练数据，通过循环块迭代实现推理，比思维链更节省内存且计算效率更高；

3. 其称模型可自适应调整计算深度，在数学和编程任务上表现优异，超越多个基准模型。

六、三星S25发布，一句话，Galaxy AI调用多个应用为你打工

1. 三星S25系列国行版发布，搭载定制版骁龙8至尊芯片，CPU、GPU和NPU性能分别提升37%、30%和40%；

2. Galaxy AI可跨应用执行链，支持30多个本地应用和10多个第三方应用，实现一句话控制多个程序；

3. 新增即时简报、即圈即搜等AI功能，并将于3月推出"语聊视界"视频对话功能。

前沿科技

七、微软开源基础模型LLaVA-Rad：自动生成高质量放射学报告

1. 微软等研发轻量级多模态模型LLaVA-Rad，专注胸部X光影像报告生成，仅需单个V100 GPU即可推理；

2. 模型采用三阶段训练和高效适配器，在近70万对放射学图像数据上训练，可自动生成高质量报告；

3. 相比同规模的70亿参数模型表现更优，在ROUGE-L和F1-RadGraph等指标上超越Med-PaLM M。