专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20250108

腾讯研究院 · 公众号 · 科技媒体 · 2025-01-08 00:03

主要观点总结

本文主要报道了英伟达发布的一系列与人工智能相关的技术和产品，包括RTX 50系列显卡、Omniverse+Cosmos世界模型、Project Digits AI超算等。同时，也介绍了其他有关AI的研究和进展，如清华等提出的隐式过程奖励模型、港中大等机构提出的医疗推理大模型HuatuoGPT-o1等。此外，还包括初创公司发布AI原生硬件设备JARVIS ONE、通义实验室的新闻总结框架、单张图像生成高质量3D场景技术、前沿科技领域的突破性技术及观点等。

关键观点总结

关键观点1: 英伟达发布的技术和产品

包括RTX 50系列显卡、Omniverse+Cosmos世界模型、Project Digits AI超算等，分别用于提升图形处理能力、数字孪生应用和个人开发者的高算力解决方案。

关键观点2: 其他AI研究和进展

包括清华等提出的隐式过程奖励模型、医疗推理大模型HuatuoGPT-o1等，分别解决了语言模型推理能力提升和医学领域大模型的推理准确性提升等问题。

关键观点3: AI初创公司和实验室的新技术

包括罗永浩AI初创公司发布的AI原生硬件设备JARVIS ONE、通义实验室的新闻总结框架等，展现了AI技术在人机交互、新闻总结等领域的应用潜力。

关键观点4: 单张图像生成高质量3D场景技术

结合了视频生成和大规模3D重建技术，从单张图像生成高质量3D场景，突破了传统依赖多视角数据的限制。

关键观点5: 前沿科技领域的突破性技术及观点

包括小语言模型的崛起、新技术突破改变生活、交通与工业革新等，展现了AI技术在不同领域的应用前景和挑战。

正文

生成式AI

一、不只 5090，英伟达还发布了最小「AI 超算」与最大世界模型

1. 英伟达发布了RTX 50系列显卡，性能大幅提升，特别是RTX 5090，功耗增加但效率更高，支持DLSS 4技术，提升图像质量和帧率；

2. 英伟达推出Omniverse+Cosmos世界模型，提供物理感知视频生成，支持机器人和自动驾驶技术，推动工业AI和数字孪生应用；

3. Project Digits是英伟达的新桌面级AI超算，支持高达2000亿参数模型，适合个人开发者，提供高算力解决方案。

https://mp.weixin.qq.com/s/KkvxGFuWOXUFQYaqqwVAHA

二、 1/10训练数据超越GPT-4o，清华等提出隐式过程奖励模型

1. PRIME通过隐式过程奖励提高语言模型推理能力，超越SFT和蒸馏方法，使用1/10数据资源实现了显著性能提升；

2. PRIME在多个基准测试中表现优异，尤其在AMC和AIME中提高20%以上，且在6项测试中超越GPT-4o；

3. 通过隐式PRM和强化学习结合，解决奖励稀疏性问题，优化过程奖励，显著加速RL训练并提高最终奖励。

https://mp.weixin.qq.com/s/bogt5zl7rytcz-FhNECTNg

三、 AI华佗？港中大等机构提出医疗推理大模型HuatuoGPT-o1

1. HuatuoGPT-o1通过增强推理能力和医学验证器，提升了医学领域大模型的推理准确性，优于医学专用基线；

2. 研究通过构建可验证医学问题和强化学习，优化了模型的复杂推理能力，显著提升了医学问题解决能力；

3. 该方法在中医等领域的验证显示其跨领域适应性，推动医学及其他专业领域的推理进步。

https://mp.weixin.qq.com/s/R9lffAJZaIFnyhOFaWYiCA

四、罗永浩AI初创公司发布首款AI原生硬件设备JARVIS ONE

1. JARVIS ONE主体集成电池、指纹识别、Wi-Fi、麦克风和蓝牙模块，通过触摸指纹识别激活语音命令，优化人机交互；

2. 配套TWS耳机支持与多个设备并行连接，提升多场景应用的灵活性；

3. J1 Assistant软件通过“Ripple Touch”按钮整合语音与应用，支持Google搜索、AI问答、ChatGPT对话和备忘录创建。

https://mp.weixin.qq.com/s/1PGDVHa8k7bzs3Pu7yLX1w

五、通义实验室提出新时间线总结框架，全面提升新闻总结效率

1. 阿里通义实验室与上海交通大学提出的CHRONOS框架，通过迭代自我提问和检索增强生成技术，提升新闻时间线总结效率；

2. CHRONOS框架在开放域和封闭域时间线总结任务中表现出色，能够有效识别和建立事件之间的时间和因果关系；

3. 实验结果显示，CHRONOS在事件总结质量和日期对齐准确性上优于基线方法，并在效率上具有优势。

https://mp.weixin.qq.com/s/Cw5BAT_aQj3HE7CmQfHj4Q

六、单张图像探索3D奇境：Wonderland的高质量3D场景生成

1. Wonderland模型通过结合视频生成和大规模3D重建技术，从单张图像生成高质量3D场景，突破了传统依赖多视角数据的限制；

2. 采用双分支相机控制机制和LaLRM重建模型，Wonderland实现了精确的视角控制和高效的3D场景生成，显著提升了生成质量和效率；

3. Wonderland在建筑设计、虚拟现实等领域展现广阔应用潜力，未来将继续优化动态场景适配和真实细节还原能力。

https://mp.weixin.qq.com/s/ViSQcx3UNLjRb7goIRhQFg

前沿科技

七、《麻省理工科技评论》2025年“十大突破性技术”正式发布

1. 小语言模型崛起，OpenAI、谷歌等巨头推出轻量版本，在特定任务中表现优异且更节能；

2. 新技术突破改变生活：Vera Rubin天文台探索暗物质、HIV长效预防药问世、生成式AI搜索普及、牛打嗝抑制剂减排、清洁航空燃料发展、机器人快速学习、干细胞疗法进展；

3. 交通与工业革新：无人驾驶出租车在中美扩张、绿色钢铁技术实现近零排放生产。

https://mp.weixin.qq.com/s/iN-aC10eOCueMbsr0pQsyQ

报告观点

八、 OpenAI爆料收费每月200美金的ChatGPT Pro仍亏损

1. OpenAI的ChatGPT Pro每月200美元套餐因用户使用超预期而亏损，定价策略缺乏严格市场研究；

2. 公司2024年亏损约50亿美元，收入37亿美元，主要成本来自人员、租金和AI训练基础设施；

3. OpenAI预计2025年收入将达116亿美元，2029年目标达到1000亿美元，匹配雀巢当前年销售额。

https://mp.weixin.qq.com/s/OPkQ8hFn6GbTnilFvnEW6g

九、 a16z ：交互式3D及仿真技术将不仅仅服务于游戏行业

1. 2020年代交互式3D和游戏技术将从娱乐领域拓展至企业应用，包括培训、机器人训练和可视化等领域；

2. 3D内容创建、捕捉技术和硬件设备是未来发展重点，AI和新技术降低了内容创作成本，提高了制作效率；

3. 人机交互技术不断突破，从眼动追踪到脑机接口，将为虚拟仿真带来更强的沉浸体验。

https://mp.weixin.qq.com/s/YmeroSIetCYjJPWTDg3-pA

十、手机自动驾驶揭秘！vivo万字综述探讨大模型手机自动化

1. 手机GUI自动化由传统的脚本化测试发展到基于大语言模型的智能体操作，实现自然语言控制和复杂任务执行；

2. 手机智能体框架包含感知、大脑和行动三大模块，通过多智能体协作和计划-执行架构提升任务完成能力；

3. 未来发展重点在于设备端轻量化部署、用户个性化适配和安全隐私保护等方面。

https://mp.weixin.qq.com/s/Cmq4qidvlLB5ZL5OZ90uoA

AI50节选

👇订阅下方合集，获取每日推送