专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20241223

腾讯研究院 · 公众号 · 科技媒体 · 2024-12-23 00:01

主要观点总结

本文主要报道了关于生成式AI的多个进展，包括OpenAI发布的下一代推理模型o3，Mac版ChatGPT的应用，Realtime Embedded SDK的推出，谷歌发布的Gemini 2.0 Flash Thinking，英伟达AI的3D建模新阶段，全球首个AI圣彼得大教堂的上线，MetaMorph模型的问世，Apptronik与DeepMind的合作以及关于AI传递气味的新技术等。

关键观点总结

关键观点1: OpenAI发布下一代推理模型o3，具备高推理能力和效率表现优秀。

OpenAI发布了o3模型，该模型在数学、编程等多项测试中超越前代o1，刷新了多项AI记录。o3-mini具备三种推理模式，低成本高效表现优秀，尤其在代码生成和数学测试中表现出色。

关键观点2: Mac版ChatGPT支持跨应用操作，增强生产力。

Mac版ChatGPT支持与多款应用协作，覆盖编码和写作工具，提供快捷键调用及实时优化功能。新功能Canvas引入主动任务处理，桌面版增强生产力，支持跨应用操作如代码生成和数据可视化。

关键观点3: OpenAI推出Realtime Embedded SDK用于小型硬件设备，激发相关市场需求。

OpenAI推出了Realtime Embedded SDK，使微控制器实现实时AI功能，支持语音交互与自然语言处理。应用场景覆盖智能家居、物联网与机器人，SDK提供便捷工具链，支持快速部署与云端AI连接。

关键观点4: 谷歌发布Gemini 2.0 Flash Thinking，在数学、编程任务上表现卓越。

Gemini 2.0 Flash Thinking通过训练增强推理能力，推理速度是o1-mini的两倍，正确率高。虽然速度和准确度都很强，但偶尔会犯错。

关键观点5: 英伟达推出Meshtron实现一键生成高保真3D网格，推动行业革命。

英伟达推出Meshtron，采用Hourglass架构和滑动窗口注意力机制，支持高分辨率复杂网格生成。Meshtron支持多种应用场景，显著改变3D建模流程。

关键观点6: 全球首个AI圣彼得大教堂上线，细节达到毫米级精度。

梵蒂冈与Iconem、微软合作，利用AI技术复刻圣彼得大教堂的3D数字双胞胎。这一项目为2025年圣年禧年提供数字平台。

关键观点7: MetaMorph模型实现统一视觉理解与生成，利用LLM预训练知识展现强大生成能力。

MetaMorph模型通过视觉预测指令调整（VPiT）实现了统一的视觉理解与生成。研究发现视觉理解与生成能力密切相关。

关键观点8: Apptronik与DeepMind合作推动人形机器人发展。

Apptronik与Google DeepMind合作将AI与人形机器人硬件结合。Apptronik的Apollo机器人获2024年RBR50机器人创新奖并进入商业测试。

关键观点9: AI技术能定制个性化气味。

Osmo公司利用AI和气味数据库成功生成李子等气味，并可定制新香料。目标包括气味传输技术和应用于疾病检测等领域。

关键观点10: Claude官方发布《Agent构建指南》，强调智能体的反直觉法则。

构建智能体时应优先采用简单方案，智能体分为工作流和自主决策两类。Anthropic强调简洁、透明、精心设计的重要性。

正文

生成式AI

一、 OpenAI Day 12，下一代推理模型o3，AGI评测基准达87.5%

1. OpenAI发布o3模型，数学、编程等多项测试超越前代o1，刷新多项AI记录；

2. o3-mini具备三种推理模式，低成本高效表现优秀，尤其在代码生成和数学测试中表现出色；

3. 虽然o3在通用性和性能上接近人类水平，但其高成本和简单任务上的局限性表明仍未达到AGI标准。

https://mp.weixin.qq.com/s/BdLjKBa2VxoE5Nxh4WuBdQ

二、 OpenAI Day 11，Mac版ChatGPT接入从代码到文案大量应用

1. Mac版ChatGPT支持与多款应用协作，覆盖编码和写作工具，提供快捷键调用及实时优化功能；

2. 新功能Canvas引入主动任务处理，桌面版增强生产力，支持跨应用操作如代码生成和数据可视化；

3. 桌面版轻量化设计，运行流畅，新增高级语音模式与IDE、写作工具无缝衔接。

https://mp.weixin.qq.com/s/8Y_sr5i4gYhnxVeicv3wuw

三、 OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备

1. OpenAI推出Realtime Embedded SDK，使微控制器（如ESP32）实现实时AI功能，支持语音交互与自然语言处理；

2. 应用场景覆盖智能家居、物联网与机器人，增强设备智能交互与环境理解能力；

3. SDK提供便捷工具链，支持快速部署与云端AI连接，或激发相关硬件市场需求。

https://mp.weixin.qq.com/s/ZZEINz8rhIYupe8XUEe88A

四、谷歌发布Gemini 2.0 Flash Thinking，对标OpenAI o1系列

1. Gemini 2.0 Flash Thinking通过训练增强推理能力，能清晰展示推理过程，表现出色；

2. 在数学、编程等任务上表现卓越，推理速度是o1-mini的两倍，且正确率高；

3. 虽然速度和准确度都很强，但偶尔会犯错，如无法正确计算重复字母数量和解答某些常见问题。

https://mp.weixin.qq.com/s/NkTP17j6HYIz95sHxCameA

五、英伟达AI 3D建模新阶段，从点云到高精建模打通3D全流程

1. 英伟达推出Meshtron，实现AI一键生成高达64K面数的高保真3D网格，媲美专业艺术家水平；

2. Meshtron采用Hourglass架构和滑动窗口注意力机制，支持高分辨率复杂网格生成，提升效率和质量；

3. 支持动画、游戏和虚拟环境等多种应用场景，显著改变3D建模流程，推动行业革命。

https://mp.weixin.qq.com/s/_HbpC1VYume4N0Rz03IG_Q

六、全球首个AI圣彼得大教堂上线，40万照片毫米级3D还原

1. 梵蒂冈与Iconem、微软合作，利用40万张照片和AI技术，成功复刻圣彼得大教堂的3D数字双胞胎；

2. AI和数字孪生技术使得教堂的细节达到毫米级精度，提供沉浸式互动网站和虚拟参观体验；

3. 这一项目为2025年圣年禧年提供数字平台，全球信徒和游客可在线探索难以接触的教堂区域。

https://mp.weixin.qq.com/s/hDMQj02hbCDlGhx9LiuLaQ

七、统一视觉理解与生成，MetaMorph模型问世，LeCun等参与

1. MetaMorph模型通过视觉预测指令调整（VPiT）实现了统一的视觉理解与生成，优化了多模态学习；

2. 研究发现视觉理解与生成能力密切相关，增加理解数据对两者性能有显著提升；

3. MetaMorph能够高效利用LLM预训练知识，并在多模态推理中展现强大生成能力。

https://mp.weixin.qq.com/s/Q0obsptFhlZ-R9xH3LCGVw

前沿科技

八、 Apptronik与DeepMind合作，用AI推进人形机器人发展

1. Apptronik与Google DeepMind合作，将AI与人形机器人硬件结合，提升机器人在动态环境中助人能力；

2. Apptronik的Apollo机器人凭借定制执行器和高保真3D建模，获2024年RBR50机器人创新奖并进入商业测试；

3. DeepMind开发Gemini等先进AI模型，通过机器学习和物理模拟增强机器人推理与行动，推动人形机器人技术发展。

https://mp.weixin.qq.com/s/df0erfUW7lllT-ORjS84BQ