专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
36氪  ·  海底捞背后的预制菜巨头,一年狂揽百亿 ·  13 小时前  
新浪科技  ·  【#比亚迪新款超充桩谍照曝光#】3月9日消息 ... ·  16 小时前  
i黑马  ·  Manus邀请码被炒至5万 ... ·  3 天前  
i黑马  ·  16.98万的路虎,跪着卖车 ·  3 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250213

腾讯研究院  · 公众号  · 科技媒体  · 2025-02-13 00:01

正文

生成式AI

一、  10万颗先进AI芯片,欧盟官宣AI超级工厂InvestAI计划

1. 欧盟启动InvestAI计划,调动2000亿欧元投资AI领域,建设4座AI超级工厂,配备10万颗先进AI芯片;

2. 采用公私合作模式,通过分层基金结构降低投资风险,吸引私人资本,让各类企业都能获得算力资源支持;

3. 将建立欧洲AI研究委员会,整合资源推动AI发展,并推出"应用AI"计划促进工业应用落地。

https://mp.weixin.qq.com/s/GwqgMBYb_3MuOirQ6R396w

二、  o3拿下IOI 2024金牌!新论文公布RL秘诀,无需人类干预

1. OpenAI的o3模型在IOI 2024竞赛中获得395.64分,超过金牌线,且在CodeForces测试中达到2724分,超越99.8%选手;

2. o3通过端到端强化学习,无需人工干预即可自主开发验证策略,性能超过需要人工设计策略的o1-ioi;

3. 推理模型在实际软件工程任务上表现优异,o3在SWE-bench测试中比o1提升22.8%。

https://mp.weixin.qq.com/s/7WV67GcOh2oTJhBQF9zP6Q

三、  GameArena团队发布LLM的测试神器,不考数学,考游戏

1. GameArena团队开发的Roblox实时游戏"AI空间逃脱"通过三种推理游戏测试AI性能,比传统方法更具互动性;

2. 游戏包含猜词、禁忌词和虚张声势三种类型,测试AI在多轮对话中的推理和上下文理解能力;

3. Claude-3.5-sonnet和Gemini-1.5-pro等对齐模型表现优异,游戏评估获得87%有效反馈率,远超传统方法。

https://mp.weixin.qq.com/s/-R6NBJGhnxDamrVM2WaDdA

四、  「分层RL推理」ReasonFlux框架,32B碾压o1-preiview?

1. 普林斯顿和北大团队开发的ReasonFlux-32B仅用8块A100,在MATH和AIME等数学基准测试中超越o1-preview和DeepSeek V3;

2. ReasonFlux构建约500个高层次思维模板库,通过分层强化学习优化推理路径,减少搜索空间;

3. 新框架在MATH基准达91.2%准确率超o1-preview 6.7%,AIME达56.7%领先27%,展现强大数学推理能力。

https://mp.weixin.qq.com/s/bSaIzvvg7UJkP0XNOK2uzA

五、  深度循环「隐式推理」论文引发AI圈讨论,将越思维链方法?

1. 马里兰大学提出深度循环语言模型架构,通过潜在空间隐式推理,3.5B参数模型可达到50B模型性能;

2. 无需专门训练数据,通过循环块迭代实现推理,比思维链更节省内存且计算效率更高;

3. 其称模型可自适应调整计算深度,在数学和编程任务上表现优异,超越多个基准模型。

https://mp.weixin.qq.com/s/WGszi-BKl50jQj8j7X0PYQ

六、  三星S25发布,一句话,Galaxy AI调用多个应用为你打工

1. 三星S25系列国行版发布,搭载定制版骁龙8至尊芯片,CPU、GPU和NPU性能分别提升37%、30%和40%;

2. Galaxy AI可跨应用执行链,支持30多个本地应用和10多个第三方应用,实现一句话控制多个程序;

3. 新增即时简报、即圈即搜等AI功能,并将于3月推出"语聊视界"视频对话功能。

https://mp.weixin.qq.com/s/DUFSIaXQnCq07Tg5w59OYg

前沿科技

七、  微软开源基础模型LLaVA-Rad:自动生成高质量放射学报告

1. 微软等研发轻量级多模态模型LLaVA-Rad,专注胸部X光影像报告生成,仅需单个V100 GPU即可推理;

2. 模型采用三阶段训练和高效适配器,在近70万对放射学图像数据上训练,可自动生成高质量报告;

3. 相比同规模的70亿参数模型表现更优,在ROUGE-L和F1-RadGraph等指标上超越Med-PaLM M。

https://mp.weixin.qq.com/s/hS-olOQDvmcOM-zckDri3w







请到「今天看啥」查看全文