专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20241230

腾讯研究院 · 公众号 · 科技媒体 · 2024-12-30 00:01

主要观点总结

文章概述了关于生成式AI的最新发展及相关技术进展，包括OpenAI的新模式与评估结果，不同领域的AI模型性能展示，以及各机构在AI领域的最新研究成果和观点。

关键观点总结

关键观点1: OpenAI分为两部分发展：营利部门追求商业利益，非营利部门专注于科学慈善。

OpenAI正式分为两部分，其中营利性部门转为PBC以追求商业利益，同时非营利部门专注于健康、教育和科学慈善。这种结构使得OpenAI更易获得资金，同时保留AGI造福人类的使命。

关键观点2: OpenAI的新模型o3在某些任务上表现接近人类水平，但仍存在无法解决的问题。

OpenAI的o3模型在ARC-AGI基准测试中表现优异，但仍有部分任务无法解决，显示出其与真正的AGI之间的差距。其计算成本高昂，但高计算量模式下的准确率较高。

关键观点3: 可灵AI的生图模型「可图1.5」上线了，擅长亚洲人面孔与古风摄影的人像生成。

可灵AI的「可图1.5」模型在生成人像方面表现突出，尤其擅长亚洲人像的生成。此外，它还推出了新功能「AI模特」，能够一键生成高质量的动态服装展示视频。

关键观点4: 腾讯优图等机构提出了DynamicControl框架，增强了文本生成图像任务的可控性。

DynamicControl框架通过动态选择控制条件，有效增强了文本生成图像任务的可控性。它引入多控制适配器和双循环控制器，优化了条件选择和图像一致性。

关键观点5: 小红书推出了AI搜索应用「点点」，提供多模态交互功能。

小红书推出了AI搜索应用「点点」，整合了全网生活经验信息，并提供多模态交互功能，如语音、拍照提问和视频回复。它帮助用户在美食、购物、旅行等领域获取精准答案。

关键观点6: DeepMind开源了“从假设到理论”（HtT）框架，旨在提高大模型的推理能力。

DeepMind的HtT框架旨在通过规则库增强大模型的推理能力，减少幻觉问题。实验表明，这一框架显著提升了GPT系列模型在关系推理、数值推理和概念学习中的准确性。

关键观点7: 英伟达发布了通用机器人模型RVT-2，训练效率大幅提升。

英伟达发布了RVT-2模型，其训练效率较一代提升了6倍。该模型通过引入多阶段推理管道和凸上采样技术，优化了抓手姿态预测，提高了任务执行精度。

关键观点8: 谷歌CEO表示将全力发力AI领域，把握颠覆性时刻。

谷歌CEO表示2025年将是AI领域的关键年份，公司计划全力发力以确保在AI领域的领先地位。谷歌通过Gemini模型迎头赶上OpenAI，并计划推出更多竞争性产品。

关键观点9: VAST公司的3D大模型“Tripo”推动3D生成技术的快速发展。

VAST公司通过其3D大模型“Tripo”推动了3D生成技术的快速发展。预计在未来两年内，用户将能零门槛创作实时3D内容，实现3D的UGC。

正文

生成式AI

一、 OpenAI一分为二，全力冲刺AGI！一半向钱看，一半装理想

1. OpenAI正式分为两部分：营利性部门转为PBC，追求商业利益；非营利部门专注健康、教育和科学慈善；

2. PBC结构使OpenAI更易获得资金，同时保留AGI造福人类的使命。

3. OpenAI与微软合作商业化引发批评，但认为资金是推进AGI发展的必要条件。

https://mp.weixin.qq.com/s/EK3D0B7z_dXlJlVf7jluzQ

二、这34道题o3真不会，即使思考 16 小时也没能给出正确答案

1. OpenAI的新模型o3突破了ARC-AGI基准，表现接近人类水平，且计算量越大，准确率越高；

2. o3每道题的计算成本高昂，低计算量模式每题17-20美元，高计算量模式达到数千美元；

3. o3大部分任务上表现优异，但仍有34个任务无法解决，显示出其与AGI之间的差距。

https://mp.weixin.qq.com/s/JP7oMNb0ioAOrAn9dZa7AQ

三、可灵AI生图模型，可图 1.5 上线，擅长亚洲人面孔与古风摄影

1. 可灵AI的「可图1.5」显著提升了人像生成质量，尤其擅长亚洲人像，生成效果逼真；

2. 新功能「AI模特」结合「图生视频」，能一键生成高质量的动态服装展示视频，革新广告片制作；

3. 图像和视频在质量和美学表现上接近摄像级，推动了视频生成技术的进步。

https://mp.weixin.qq.com/s/BUfvTjVHMwCBlqF6PILc3w

四、超越ControlNet++！腾讯优图等机构提出动态条件选择新架构

1. 腾讯优图提出的DynamicControl框架通过动态选择控制条件，增强了文本生成图像任务的可控性；

2. 该框架引入多控制适配器和双循环控制器，有效优化了条件选择和图像一致性；

3. 实验结果显示，DynamicControl在提升可控性的同时，未牺牲图像质量或图文对齐，提供了更高效的多条件图像生成方案。

https://mp.weixin.qq.com/s/rokxXEkwukOZDEfQxngtew

五、小红书新产品「小绿书」？免费 AI 搜索神器：美食、旅行、购物

1. 小红书推出AI搜索应用“点点”，整合全网生活经验，提供美食、购物、旅行等领域的精准答案；

2. 具备多模态交互功能，如语音、拍照提问和视频回复，增强用户互动体验；

3. 提供智能推荐、避坑指南和实时更新信息，帮助用户做出明智决策，优化生活服务搜索体验。

https://mp.weixin.qq.com/s/pSAyzKYwD903KKhKVzGuCw

六、 Deepmind 开源代码：消除幻觉，让AI学会规则库和多步推理

1. DeepMind开源了“从假设到理论”（HtT）框架，旨在通过规则库增强大模型推理能力，减少幻觉问题；

2. HtT框架包含归纳和演绎两个阶段，通过少量示例学习规则，并在演绎阶段应用规则进行推理；

3. 实验表明，HtT显著提升了GPT-3.5和GPT-4在关系推理、数值推理和概念学习中的准确性，减少了错误规则的发生。

https://mp.weixin.qq.com/s/EpdwF1DShUROOHpsRrJRyg

七、 Meta联合斯坦福发布Apollo，揭秘多模态视频理解六大驱动力

1. Meta与斯坦福联合开发Apollo Family Models，实现不同规模下卓越的视频理解，部分模型超越更大尺寸模型；

2. 揭示视频理解的六大驱动力，包括视频采样策略、视觉编码器选择、视频Token重采样、Token集成、训练计划与视频组成、模型规模与设计决策转移性；

3. 发现Scaling Consistency现象，降低研究成本，并推出高效视频理解评估基准ApolloBench，提升评估效率与质量。

https://mp.weixin.qq.com/s/4zVk_QDZ8-Q1C8d8guR6sQ

前沿科技

八、英伟达发布通用机器人模型RVT-2，训练效率较一代提升6倍

1. 英伟达发布RVT-2模型，训练效率提升6倍，推理效率提升2倍，仅需10次示范即可执行高精度任务；

2. RVT-2引入多阶段推理管道和凸上采样技术，优化抓手姿态预测，减少内存消耗；

3. 实验结果显示RVT-2在模拟和现实世界中显著优于RVT，提升了12.5%的任务成功率。

https://mp.weixin.qq.com/s/lnsHoR1ZKd52G3IJZ277DA