专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20241219

腾讯研究院 · 公众号 · 科技媒体 · 2024-12-19 00:01

主要观点总结

本文汇总了关于生成式AI领域的多个新闻和报道，涉及英伟达的新AI产品、OpenAI的新功能、AI数据公司Databricks的融资情况、多模态语言模型的新进展、Sakana AI推出的新记忆技术NAMMs、视觉理解大模型的发展以及前沿科技如螺旋软体机器人等领域的动态。

关键观点总结

关键观点1: 英伟达推出“掌心AI超算”，性能提升70%，支持多模态模型。

英伟达新版Jetson Orin Nano性能提升70%，算力达67 TOPS，支持7B/8B多模态模型，功耗仅25W，广泛应用于机器人与视觉AI领域。

关键观点2: OpenAI发布o1模型API，实时语音API价格降低60%。

OpenAI发布o1模型API，支持功能调用、视觉识别等，响应速度提升60%，并推出成本更低的“迷你版”语音服务。

关键观点3: Databricks创AI融资新纪录，筹集巨额资金用于扩展业务。

Databricks在J轮融资中筹集了超过OpenAI纪录的资金，虽然面临市场竞争和盈利模式的不确定性，但仍在寻求可持续发展的道路上努力。

关键观点4: 李飞飞团队开发新型多模态语言模型，结合语音、文本和动作。

李飞飞团队的新型多模态语言模型能够结合语音、文本和动作，生成自然的全身动作，并且能读懂隐含情绪。

关键观点5: Sakana AI推出LLM记忆技术NAMMs，显著降低内存消耗。

Sakana AI推出的NAMMs技术通过优化记忆管理提高LLM效率，实验结果显示能显著降低内存消耗并提高模型性能。

关键观点6: 其他报道涵盖了视觉理解大模型的发展、螺旋软体机器人的新技术以及谷歌对智能体和多模态AI的预测等。

其他报道涉及视觉理解大模型的发布、螺旋软体机器人的最新进展以及谷歌关于未来技术趋势的报告，这些报道展示了生成式AI领域的持续创新和进步。

正文

生成式AI

一、英伟达“掌心AI超算”，¥1800跑8B多模态，算力暴增70%

1. 新版Jetson Orin Nano性能提升70%，算力达67 TOPS，价格降低50%，支持7B/8B多模态模型与高效视觉语言处理；

2. 配备6核Arm CPU和NVIDIA Ampere GPU，支持多摄像头并发，适合边缘AI开发，功耗仅25W；

3. 兼容NVIDIA全生态AI软件，加速原型开发，提升旧设备生成式AI性能，广泛应用于机器人与视觉AI领域。

https://mp.weixin.qq.com/s/4j_TTE6u2k1gx_pbpYk1tA

二、 OpenAI Day9：o1模型开放API使用，实时语音API打骨折

1. OpenAI发布o1模型API，支持功能调用、视觉识别等，提升响应速度60%，并且逐步向开发者开放；

2. 实时语音API价格降60%，推出"迷你版"语音服务，语音质量和功能灵活性提升，支持WebRTC，降低成本；

3. 新增偏好微调技术，使AI更好地适应用户个性化需求，推出Go和Java SDK测试版，便于开发者集成AI应用。

https://mp.weixin.qq.com/s/_jDBhPvDQqLT5tJV10a9mg

三、 AI数据公司Databricks 创AI融资新纪录，一口气融728亿！

1. Databricks在J轮融资中筹集了86亿美元，超OpenAI纪录，估值达620亿美元；

2. 公司24年AI收入同比增长300%，AI产品和生成式AI的投入推动业务扩展；

3. 与Snowflake等竞争加剧，尚未实现正自由现金流，未来能否找到可持续盈利模式仍是关键。

https://mp.weixin.qq.com/s/hKLJmDRCtH9gBv3M2P_Ljw

四、李飞飞团队统一动作与语言，新多模态模型能读懂隐含情绪

1. 李飞飞团队开发的新型多模态语言模型能结合语音、文本和动作，生成自然的全身动作；

2. 模型通过预训练策略提升语义理解和泛化能力，在数据较少的情况下表现优异；

3. 新模型还能够根据动作预测情绪，表现出色，具有广泛应用潜力，如游戏和VR。

https://mp.weixin.qq.com/s/W8wS87YlW_z9rsDfnmtDLQ

五、 Sakana AI推出LLM记忆技术NAMMs，内存成本降低75%

1. Sakana AI推出NAMMs，通过进化算法优化记忆管理，大幅提升LLM效率；

2. NAMMs采用短时傅里叶变换处理注意力矩阵，结合向后注意力记忆架构，减少内存使用并提升性能；

3. 实验结果显示，NAMMs能显著降低内存消耗（最高减少75%）并提升模型性能，具备优秀的零样本迁移能力。

https://mp.weixin.qq.com/s/OjBL-288AocKubPCigxtpQ

六、豆包发布视觉理解大模型入局多模态交互，又把价格打骨折

1. 豆包发布的视觉理解大模型专注内容识别、推理和创作能力，能处理复杂图像与文字信息；

2. 模型能够精准识别图像内容并进行推理与解题，例如解答高考物理题和微积分；

3. 价格大幅降低，每千tokens仅0.003元，较行业平均价格低85%。

https://mp.weixin.qq.com/s/kKkP5Vky24wMCQzZs5Ncvg

七、更懂中文还兼顾SD生态，360开源Bridge Diffusion Model架构

1. 360推出的Bridge Diffusion Model（BDM）解决了中文文生图的世界观偏见，支持生成符合中文文化的图像；

2. BDM兼容Stable Diffusion生态，采用类似ControlNet的分支网络结构，确保与开源社区的无缝兼容；

3. 通过原生中文训练，BDM可生成符合中文认知的图像，同时支持其他语言的生成。

https://mp.weixin.qq.com/s/qxtPghz7kEJzdB7yBJcEkw

前沿科技

八、中科大新型螺旋软体机器人，实现对多尺度复杂物体的多功能抓取

1. 中国科大团队设计了新型螺旋软体机器人，模仿生物柔性肢体，具备多尺度抓取能力；

2. 机器人通过绳索驱动，采用螺旋结构实现高灵活度和强负载能力，可适应不同物体尺寸与形状；

3. 该技术可广泛应用于医疗、救援等领域，并且具有低成本、可扩展的制造优势。

https://mp.weixin.qq.com/s/ggDCiRaHneRnYo0juZ-1FA