生成式AI
一、 10万颗先进AI芯片,欧盟官宣AI超级工厂InvestAI计划
1. 欧盟启动InvestAI计划,调动2000亿欧元投资AI领域,建设4座AI超级工厂,配备10万颗先进AI芯片;
2. 采用公私合作模式,通过分层基金结构降低投资风险,吸引私人资本,让各类企业都能获得算力资源支持;
3. 将建立欧洲AI研究委员会,整合资源推动AI发展,并推出"应用AI"计划促进工业应用落地。
https://mp.weixin.qq.com/s/GwqgMBYb_3MuOirQ6R396w
二、 o3拿下IOI 2024金牌!新论文公布RL秘诀,无需人类干预
1. OpenAI的o3模型在IOI 2024竞赛中获得395.64分,超过金牌线,且在CodeForces测试中达到2724分,超越99.8%选手;
2. o3通过端到端强化学习,无需人工干预即可自主开发验证策略,性能超过需要人工设计策略的o1-ioi;
3. 推理模型在实际软件工程任务上表现优异,o3在SWE-bench测试中比o1提升22.8%。
https://mp.weixin.qq.com/s/7WV67GcOh2oTJhBQF9zP6Q
三、 GameArena团队发布LLM的测试神器,不考数学,考游戏
1. GameArena团队开发的Roblox实时游戏"AI空间逃脱"通过三种推理游戏测试AI性能,比传统方法更具互动性;
2. 游戏包含猜词、禁忌词和虚张声势三种类型,测试AI在多轮对话中的推理和上下文理解能力;
3. Claude-3.5-sonnet和Gemini-1.5-pro等对齐模型表现优异,游戏评估获得87%有效反馈率,远超传统方法。
https://mp.weixin.qq.com/s/-R6NBJGhnxDamrVM2WaDdA
四、 「分层RL推理」ReasonFlux框架,32B碾压o1-preiview?
1. 普林斯顿和北大团队开发的ReasonFlux-32B仅用8块A100,在MATH和AIME等数学基准测试中超越o1-preview和DeepSeek V3;
2. ReasonFlux构建约500个高层次思维模板库,通过分层强化学习优化推理路径,减少搜索空间;
3. 新框架在MATH基准达91.2%准确率超o1-preview 6.7%,AIME达56.7%领先27%,展现强大数学推理能力。
https://mp.weixin.qq.com/s/bSaIzvvg7UJkP0XNOK2uzA
五、 深度循环「隐式推理」论文引发AI圈讨论,将越思维链方法?
1. 马里兰大学提出深度循环语言模型架构,通过潜在空间隐式推理,3.5B参数模型可达到50B模型性能;
2. 无需专门训练数据,通过循环块迭代实现推理,比思维链更节省内存且计算效率更高;
3. 其称模型可自适应调整计算深度,在数学和编程任务上表现优异,超越多个基准模型。
https://mp.weixin.qq.com/s/WGszi-BKl50jQj8j7X0PYQ
六、 三星S25发布,一句话,Galaxy AI调用多个应用为你打工
1. 三星S25系列国行版发布,搭载定制版骁龙8至尊芯片,CPU、GPU和NPU性能分别提升37%、30%和40%;
2. Galaxy AI可跨应用执行链,支持30多个本地应用和10多个第三方应用,实现一句话控制多个程序;
3. 新增即时简报、即圈即搜等AI功能,并将于3月推出"语聊视界"视频对话功能。
https://mp.weixin.qq.com/s/DUFSIaXQnCq07Tg5w59OYg
前沿科技
七、 微软开源基础模型LLaVA-Rad:自动生成高质量放射学报告
1. 微软等研发轻量级多模态模型LLaVA-Rad,专注胸部X光影像报告生成,仅需单个V100 GPU即可推理;
2. 模型采用三阶段训练和高效适配器,在近70万对放射学图像数据上训练,可自动生成高质量报告;
3. 相比同规模的70亿参数模型表现更优,在ROUGE-L和F1-RadGraph等指标上超越Med-PaLM M。
https://mp.weixin.qq.com/s/hS-olOQDvmcOM-zckDri3w