专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
36氪  ·  神剧跌落神坛 ·  昨天  
虎嗅APP  ·  刚过去的2024,什么行业在闷声发财? ·  2 天前  
虎嗅APP  ·  刘小样:中国式“娜拉”的结局 ·  3 天前  
新浪科技  ·  【#雷军否认造车只花100多亿#】12月31 ... ·  3 天前  
新浪科技  ·  【#开发者担忧iPhone功能泄露用户隐私# ... ·  3 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20241230

腾讯研究院  · 公众号  · 科技媒体  · 2024-12-30 00:01

主要观点总结

文章概述了关于生成式AI的最新发展及相关技术进展,包括OpenAI的新模式与评估结果,不同领域的AI模型性能展示,以及各机构在AI领域的最新研究成果和观点。

关键观点总结

关键观点1: OpenAI分为两部分发展:营利部门追求商业利益,非营利部门专注于科学慈善。

OpenAI正式分为两部分,其中营利性部门转为PBC以追求商业利益,同时非营利部门专注于健康、教育和科学慈善。这种结构使得OpenAI更易获得资金,同时保留AGI造福人类的使命。

关键观点2: OpenAI的新模型o3在某些任务上表现接近人类水平,但仍存在无法解决的问题。

OpenAI的o3模型在ARC-AGI基准测试中表现优异,但仍有部分任务无法解决,显示出其与真正的AGI之间的差距。其计算成本高昂,但高计算量模式下的准确率较高。

关键观点3: 可灵AI的生图模型「可图1.5」上线了,擅长亚洲人面孔与古风摄影的人像生成。

可灵AI的「可图1.5」模型在生成人像方面表现突出,尤其擅长亚洲人像的生成。此外,它还推出了新功能「AI模特」,能够一键生成高质量的动态服装展示视频。

关键观点4: 腾讯优图等机构提出了DynamicControl框架,增强了文本生成图像任务的可控性。

DynamicControl框架通过动态选择控制条件,有效增强了文本生成图像任务的可控性。它引入多控制适配器和双循环控制器,优化了条件选择和图像一致性。

关键观点5: 小红书推出了AI搜索应用「点点」,提供多模态交互功能。

小红书推出了AI搜索应用「点点」,整合了全网生活经验信息,并提供多模态交互功能,如语音、拍照提问和视频回复。它帮助用户在美食、购物、旅行等领域获取精准答案。

关键观点6: DeepMind开源了“从假设到理论”(HtT)框架,旨在提高大模型的推理能力。

DeepMind的HtT框架旨在通过规则库增强大模型的推理能力,减少幻觉问题。实验表明,这一框架显著提升了GPT系列模型在关系推理、数值推理和概念学习中的准确性。

关键观点7: 英伟达发布了通用机器人模型RVT-2,训练效率大幅提升。

英伟达发布了RVT-2模型,其训练效率较一代提升了6倍。该模型通过引入多阶段推理管道和凸上采样技术,优化了抓手姿态预测,提高了任务执行精度。

关键观点8: 谷歌CEO表示将全力发力AI领域,把握颠覆性时刻。

谷歌CEO表示2025年将是AI领域的关键年份,公司计划全力发力以确保在AI领域的领先地位。谷歌通过Gemini模型迎头赶上OpenAI,并计划推出更多竞争性产品。

关键观点9: VAST公司的3D大模型“Tripo”推动3D生成技术的快速发展。

VAST公司通过其3D大模型“Tripo”推动了3D生成技术的快速发展。预计在未来两年内,用户将能零门槛创作实时3D内容,实现3D的UGC。


正文

生成式AI

一、  OpenAI一分为二,全力冲刺AGI!一半向钱看,一半装理想

1. OpenAI正式分为两部分:营利性部门转为PBC,追求商业利益;非营利部门专注健康、教育和科学慈善;

2. PBC结构使OpenAI更易获得资金,同时保留AGI造福人类的使命。

3. OpenAI与微软合作商业化引发批评,但认为资金是推进AGI发展的必要条件。

https://mp.weixin.qq.com/s/EK3D0B7z_dXlJlVf7jluzQ

二、  这34道题o3真不会,即使思考 16 小时也没能给出正确答案

1. OpenAI的新模型o3突破了ARC-AGI基准,表现接近人类水平,且计算量越大,准确率越高;

2. o3每道题的计算成本高昂,低计算量模式每题17-20美元,高计算量模式达到数千美元;

3. o3大部分任务上表现优异,但仍有34个任务无法解决,显示出其与AGI之间的差距。

https://mp.weixin.qq.com/s/JP7oMNb0ioAOrAn9dZa7AQ

三、  可灵AI生图模型,可图 1.5 上线,擅长亚洲人面孔与古风摄影

1. 可灵AI的「可图1.5」显著提升了人像生成质量,尤其擅长亚洲人像,生成效果逼真;

2. 新功能「AI模特」结合「图生视频」,能一键生成高质量的动态服装展示视频,革新广告片制作;

3. 图像和视频在质量和美学表现上接近摄像级,推动了视频生成技术的进步。

https://mp.weixin.qq.com/s/BUfvTjVHMwCBlqF6PILc3w

四、  超越ControlNet++!腾讯优图等机构提出动态条件选择新架构

1. 腾讯优图提出的DynamicControl框架通过动态选择控制条件,增强了文本生成图像任务的可控性;

2. 该框架引入多控制适配器和双循环控制器,有效优化了条件选择和图像一致性;

3. 实验结果显示,DynamicControl在提升可控性的同时,未牺牲图像质量或图文对齐,提供了更高效的多条件图像生成方案。

https://mp.weixin.qq.com/s/rokxXEkwukOZDEfQxngtew

五、  小红书新产品「小绿书」?免费 AI 搜索神器:美食、旅行、购物

1. 小红书推出AI搜索应用“点点”,整合全网生活经验,提供美食、购物、旅行等领域的精准答案;

2. 具备多模态交互功能,如语音、拍照提问和视频回复,增强用户互动体验;

3. 提供智能推荐、避坑指南和实时更新信息,帮助用户做出明智决策,优化生活服务搜索体验。

https://mp.weixin.qq.com/s/pSAyzKYwD903KKhKVzGuCw

六、  Deepmind 开源代码:消除幻觉,让AI学会规则库和多步推理

1. DeepMind开源了“从假设到理论”(HtT)框架,旨在通过规则库增强大模型推理能力,减少幻觉问题;

2. HtT框架包含归纳和演绎两个阶段,通过少量示例学习规则,并在演绎阶段应用规则进行推理;

3. 实验表明,HtT显著提升了GPT-3.5和GPT-4在关系推理、数值推理和概念学习中的准确性,减少了错误规则的发生。

https://mp.weixin.qq.com/s/EpdwF1DShUROOHpsRrJRyg

七、  Meta联合斯坦福发布Apollo,揭秘多模态视频理解六大驱动力

1. Meta与斯坦福联合开发Apollo Family Models,实现不同规模下卓越的视频理解,部分模型超越更大尺寸模型;

2. 揭示视频理解的六大驱动力,包括视频采样策略、视觉编码器选择、视频Token重采样、Token集成、训练计划与视频组成、模型规模与设计决策转移性;

3. 发现Scaling Consistency现象,降低研究成本,并推出高效视频理解评估基准ApolloBench,提升评估效率与质量。

https://mp.weixin.qq.com/s/4zVk_QDZ8-Q1C8d8guR6sQ

前沿科技

八、  英伟达发布通用机器人模型RVT-2,训练效率较一代提升6倍

1. 英伟达发布RVT-2模型,训练效率提升6倍,推理效率提升2倍,仅需10次示范即可执行高精度任务;

2. RVT-2引入多阶段推理管道和凸上采样技术,优化抓手姿态预测,减少内存消耗;

3. 实验结果显示RVT-2在模拟和现实世界中显著优于RVT,提升了12.5%的任务成功率。

https://mp.weixin.qq.com/s/lnsHoR1ZKd52G3IJZ277DA

报告观点

九、  谷歌CEO战略传达:把握当下颠覆性时刻,赌注从未如此之高

1. 谷歌CEO劈柴表示2025年将是AI领域的关键年份,公司将全力发力,确保AI领域的领先地位;

2. 谷歌通过Gemini模型迎头赶上OpenAI,力图通过高性能多模态AI实现突破,并计划推出更多竞争性产品;

3. 谷歌在AI创新方面投入巨大,力求通过Gemini和其他产品推动智能体发展。

https://mp.weixin.qq.com/s/mq82CnxZ_Ple_PKjS5WrWg

十、  VAST CEO:Tripo进展;未来2年零门槛3D创作时代将到来

1. VAST公司通过其3D大模型“Tripo”推动3D生成技术的快速发展,已实现静态与动态内容的生成;

2. 预计到2025年,Tripo将突破到1080p甚至4K,用户将能零门槛创作实时3D内容,实现3D 的UGC;

3. 3D生成技术已广泛应用于游戏、动画、工业设计等领域,并大幅降低创作成本和门槛,促进个性化和规模化生产。

https://mp.weixin.qq.com/s/7bQVY-xyMMcQJr4Mz9D3JQ

👇订阅下方合集,获取每日推送