专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20250103

腾讯研究院 · 公众号 · 科技媒体 · 2025-01-03 00:01

主要观点总结

本文主要报道了关于生成式AI领域的多个新闻，涵盖了顶级模型参数、大型语言模型的效率问题、多个科技公司在AI领域的新进展以及专家的观点等内容。

关键观点总结

关键观点1: 微软与华盛顿大学合作的论文透露了多个LLM模型的参数，包括GPT-4和Claude 3.5等。

论文给出了GPT-4o-mini为8B参数，Claude 3.5 Sonnet的参数为175B。这些参数数量引发了社区的广泛讨论。

关键观点2: 腾讯AI Lab和上海交通大学揭示了o1-like超大型语言模型的“过度思考”现象。

这种现象导致在简单问题上消耗过多计算资源，效率低下。论文提出了新的效率指标，并优化了策略来减少过度思考，保持准确性并降低计算开销。

关键观点3: 百度在其Web首页上线了AI搜索功能，推出了“灵感探索”功能。

该功能通过深度分析激发思维，提供多维度解答，并提供了专业智能回复来解决复杂问题。

关键观点4: 字节与POSTECH合作推出了1.58-bit FLUX模型，将AI画图模型压缩了7.7倍。

该模型能在手机上流畅运行，同时图像质量几乎无差异。

关键观点5: 英伟达与新加坡科技设计大学合作研发的TangoFlux文本到音频生成模型能在短时间内生成高质量音频。

该模型采用了创新的FluxTransformer架构和流匹配技术，可应用于多个领域。

关键观点6: 中科院的空间智能新框架SceneX能快速生成高质量的3D场景。

该框架通过结合程序化资产与智能规划，支持多种场景的快速构建，大大提高了生成效率。

关键观点7: 多机构提出的新模型RoboVLMs在视觉语言模型中添加动作预测模块，表现出色。

该模型采用连续动作空间、多步历史信息及专门的历史信息组织模块，增强了模型性能和泛化能力。

关键观点8: 基于量子点激光器的人工神经元具备超快信号处理能力，比生物神经元快10亿倍。

该技术突破了光子脉冲神经元的速度限制，在AI任务中展现出卓越的模式识别和序列预测能力。

关键观点9: 谷歌指出罗马尼亚公共部门69%的工作岗位将被生成式AI补充。

生成式AI在数据处理、报告生成等岗位中可承担大量工作，大幅提高效率。

关键观点10: AI教父警告AI导致人类灭绝的风险翻倍，多位AI专家对2025年的AI发展做出了预测。

包括AI视觉的普及、智能体和具备永久记忆的AI的发展等。同时，也指出了AI的可靠性和法规需要加强。

正文

生成式AI

一、 4o-mini只有8B？微软一论文「透露」了当下顶级模型参数

1. 微软与华盛顿大学合作的论文估计了多个LLM模型的参数，包括GPT-4、Claude 3.5等；

2. 论文给出的数据：GPT-4o-mini仅为8B参数，而Claude 3.5 Sonnet的参数为175B；

3. 微软论文中的参数数量为估计值，但引发社区对数据准确性和模型规格的广泛讨论。

https://mp.weixin.qq.com/s/INYq9CPfM2Sm_kgaI-oHbQ

二、腾讯AI Lab、上交揭秘o1-like超大型语言模型的过度思考

1. o1类大型语言模型存在“过度思考”现象，在简单问题上消耗过多计算资源，导致效率低下；

2. 论文提出了新的效率指标，评估o1模型在推理过程中的准确性和多样性，发现延长思考链并未显著提高准确性；

3. 通过自我训练等优化策略，减少过度思考，保持准确性的同时有效降低计算开销。 https://mp.weixin.qq.com/s/sI22s2i17rTqnCQiwKz5JQ

三、百度Web首页正式上线了自己的AI搜入口，整合大模型能力

1. "AI搜"推出了“灵感探索”功能，通过深度分析激发思维，提供多维度解答；

2. 提供一站式生产力工具，支持文创、图创、AI阅读等功能，专注效率提升；

3. 集成文心智能体平台，提供法律、健康等领域的专业智能回复，解决复杂问题。

https://mp.weixin.qq.com/s/XaRMZ-uJXIFKiDFaZtEqFw

四、 1.58比特FLUX：手机也能流畅运行的顶尖AI生图模型量化

1. 字节与POSTECH合作推出1.58-bit FLUX，将AI画图模型压缩7.7倍，便于移动端运行；

2. 采用1.58比特量化技术，大幅降低模型存储、推理内存并提升推理速度；

3. 经过测试，压缩后模型在图像质量上几乎无差异，支持高质量的AI图像生成。

https://mp.weixin.qq.com/s/DnsQdQQ9kjwoMafm50QjWw

五、英伟达 TangoFlux：秒生成30 秒高质量音频，配音 so easy

1、TangoFlux是由新加坡科技设计大学与NVIDIA合作研发的文本到音频生成模型，能在3.7秒内生成30秒的高质量音频；

2、采用创新的FluxTransformer架构和流匹配技术，提升音频生成效率并降低计算资源需求；

3、可应用于影视、游戏、音乐创作、VR/AR及广告营销等领域，推动音频生成技术发展。

https://mp.weixin.qq.com/s/tequM-wFRZ1XW4UyT0GsdA

六、大规模3D场景2分钟生成，30倍效率！中科院空间智能新框架

1、SceneX是一个创新的3D场景生成框架，通过简单文字描述快速生成高质量的3D场景，大幅提升效率；

2、核心模块PCGHub和PCGPlanner结合程序化资产与智能规划，实现了大规模场景生成的高效性与灵活性；

3、SceneX支持快速构建自然景观和城市等多种场景，显著提高生成效率，缩短传统建模所需的时间。

https://mp.weixin.qq.com/s/dBfUdgTvTzVp4c75L0JMVw

七、怎么做好一个 VLA？多机构提出新模型RoboVLMs解锁VLA

1、RoboVLMs通过为视觉语言模型添加动作预测模块，在模拟和真实机器人实验中表现出色；

2、采用连续动作空间、多步历史信息及专门的历史信息组织模块，提升模型性能和泛化能力；

3、在预训练阶段引入跨本体数据，显著增强模型的鲁棒性和少样本任务表现。

https://mp.weixin.qq.com/s/z0v0mrl_WB0Ie-5yVHc3-g

前沿科技

八、比人类神经元快10亿倍！港中文、中科院「激光人工神经元」

1、基于量子点激光器的人工神经元比生物神经元快10亿倍，具备超快信号处理能力；

2、该技术能在1秒内处理1亿次心跳数据和3479万张图像，突破了光子脉冲神经元的速度限制；

3、激光梯级神经元在心律失常检测和图像分类等AI任务中展现出卓越的模式识别和序列预测能力。