本文主要报道了关于生成式AI的多个进展,包括OpenAI发布的下一代推理模型o3,Mac版ChatGPT的应用,Realtime Embedded SDK的推出,谷歌发布的Gemini 2.0 Flash Thinking,英伟达AI的3D建模新阶段,全球首个AI圣彼得大教堂的上线,MetaMorph模型的问世,Apptronik与DeepMind的合作以及关于AI传递气味的新技术等。
OpenAI发布了o3模型,该模型在数学、编程等多项测试中超越前代o1,刷新了多项AI记录。o3-mini具备三种推理模式,低成本高效表现优秀,尤其在代码生成和数学测试中表现出色。
Mac版ChatGPT支持与多款应用协作,覆盖编码和写作工具,提供快捷键调用及实时优化功能。新功能Canvas引入主动任务处理,桌面版增强生产力,支持跨应用操作如代码生成和数据可视化。
OpenAI推出了Realtime Embedded SDK,使微控制器实现实时AI功能,支持语音交互与自然语言处理。应用场景覆盖智能家居、物联网与机器人,SDK提供便捷工具链,支持快速部署与云端AI连接。
Gemini 2.0 Flash Thinking通过训练增强推理能力,推理速度是o1-mini的两倍,正确率高。虽然速度和准确度都很强,但偶尔会犯错。
英伟达推出Meshtron,采用Hourglass架构和滑动窗口注意力机制,支持高分辨率复杂网格生成。Meshtron支持多种应用场景,显著改变3D建模流程。
梵蒂冈与Iconem、微软合作,利用AI技术复刻圣彼得大教堂的3D数字双胞胎。这一项目为2025年圣年禧年提供数字平台。
MetaMorph模型通过视觉预测指令调整(VPiT)实现了统一的视觉理解与生成。研究发现视觉理解与生成能力密切相关。
Apptronik与Google DeepMind合作将AI与人形机器人硬件结合。Apptronik的Apollo机器人获2024年RBR50机器人创新奖并进入商业测试。
Osmo公司利用AI和气味数据库成功生成李子等气味,并可定制新香料。目标包括气味传输技术和应用于疾病检测等领域。
构建智能体时应优先采用简单方案,智能体分为工作流和自主决策两类。Anthropic强调简洁、透明、精心设计的重要性。
生成式AI
一、 OpenAI Day 12,下一代推理模型o3,AGI评测基准达87.5%
1. OpenAI发布o3模型,数学、编程等多项测试超越前代o1,刷新多项AI记录;
2. o3-mini具备三种推理模式,低成本高效表现优秀,尤其在代码生成和数学测试中表现出色;
3. 虽然o3在通用性和性能上接近人类水平,但其高成本和简单任务上的局限性表明仍未达到AGI标准。
https://mp.weixin.qq.com/s/BdLjKBa2VxoE5Nxh4WuBdQ
二、 OpenAI Day 11,Mac版ChatGPT接入从代码到文案大量应用
1. Mac版ChatGPT支持与多款应用协作,覆盖编码和写作工具,提供快捷键调用及实时优化功能;
2. 新功能Canvas引入主动任务处理,桌面版增强生产力,支持跨应用操作如代码生成和数据可视化;
3. 桌面版轻量化设计,运行流畅,新增高级语音模式与IDE、写作工具无缝衔接。
https://mp.weixin.qq.com/s/8Y_sr5i4gYhnxVeicv3wuw
三、 OpenAI 推出 Realtime Embedded SDK 专门用在小型硬件设备
1. OpenAI推出Realtime Embedded SDK,使微控制器(如ESP32)实现实时AI功能,支持语音交互与自然语言处理;
2. 应用场景覆盖智能家居、物联网与机器人,增强设备智能交互与环境理解能力;
3. SDK提供便捷工具链,支持快速部署与云端AI连接,或激发相关硬件市场需求。
https://mp.weixin.qq.com/s/ZZEINz8rhIYupe8XUEe88A
四、 谷歌发布Gemini 2.0 Flash Thinking,对标OpenAI o1系列
1. Gemini 2.0 Flash Thinking通过训练增强推理能力,能清晰展示推理过程,表现出色;
2. 在数学、编程等任务上表现卓越,推理速度是o1-mini的两倍,且正确率高;
3. 虽然速度和准确度都很强,但偶尔会犯错,如无法正确计算重复字母数量和解答某些常见问题。
https://mp.weixin.qq.com/s/NkTP17j6HYIz95sHxCameA
五、 英伟达AI 3D建模新阶段,从点云到高精建模打通3D全流程
1. 英伟达推出Meshtron,实现AI一键生成高达64K面数的高保真3D网格,媲美专业艺术家水平;
2. Meshtron采用Hourglass架构和滑动窗口注意力机制,支持高分辨率复杂网格生成,提升效率和质量;
3. 支持动画、游戏和虚拟环境等多种应用场景,显著改变3D建模流程,推动行业革命。
https://mp.weixin.qq.com/s/_HbpC1VYume4N0Rz03IG_Q
六、 全球首个AI圣彼得大教堂上线,40万照片毫米级3D还原
1. 梵蒂冈与Iconem、微软合作,利用40万张照片和AI技术,成功复刻圣彼得大教堂的3D数字双胞胎;
2. AI和数字孪生技术使得教堂的细节达到毫米级精度,提供沉浸式互动网站和虚拟参观体验;
3. 这一项目为2025年圣年禧年提供数字平台,全球信徒和游客可在线探索难以接触的教堂区域。
https://mp.weixin.qq.com/s/hDMQj02hbCDlGhx9LiuLaQ
七、 统一视觉理解与生成,MetaMorph模型问世,LeCun等参与
1. MetaMorph模型通过视觉预测指令调整(VPiT)实现了统一的视觉理解与生成,优化了多模态学习;
2. 研究发现视觉理解与生成能力密切相关,增加理解数据对两者性能有显著提升;
3. MetaMorph能够高效利用LLM预训练知识,并在多模态推理中展现强大生成能力。
https://mp.weixin.qq.com/s/Q0obsptFhlZ-R9xH3LCGVw
前沿科技
八、 Apptronik与DeepMind合作,用AI推进人形机器人发展
1. Apptronik与Google DeepMind合作,将AI与人形机器人硬件结合,提升机器人在动态环境中助人能力;
2. Apptronik的Apollo机器人凭借定制执行器和高保真3D建模,获2024年RBR50机器人创新奖并进入商业测试;
3. DeepMind开发Gemini等先进AI模型,通过机器学习和物理模拟增强机器人推理与行动,推动人形机器人技术发展。
https://mp.weixin.qq.com/s/df0erfUW7lllT-ORjS84BQ
九、 AI能传递气味了!能定制个性化气味,谷歌前研究员新技术
1. Osmo公司利用AI和气味数据库成功生成李子等气味,并可定制新香料;
2. AI通过“气味地图”和机器学习技术分析、预测分子气味,提供定制化服务;
3. Osmo的目标包括气味传输技术和应用于疾病检测,未来可能用于医疗、毒品检测等领域。
https://mp.weixin.qq.com/s/VGPiEkiw96clfmQfprtb3w
报告观点
十、 Claude 官方发布《Agent 构建指南》,智能体的反直觉法则
1. 构建智能体时应优先采用简单方案,复杂系统仅在简单方案无法满足需求时使用;
2. 智能体分为工作流和自主决策两类,工作流适合明确任务,智能体适用于灵活应对复杂任务;
3. Anthropic 强调简洁、透明、精心设计的重要性,建议开发者从增强型 LLM 开始,逐步引入复杂度。
https://mp.weixin.qq.com/s/hqNcLv3pKgZdqpGxAPlt2A
👇订阅下方合集,获取每日推送