专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20241213

腾讯研究院 · 公众号 · 科技媒体 · 2024-12-13 00:01

主要观点总结

这篇文章介绍了苹果、谷歌等科技巨头在AI领域的最新进展，包括苹果的首款AI服务器芯片Baltra、谷歌的Gemini 2.0和AI代理应用、OpenAI与苹果设备的深度整合等。此外，文章还涉及Midjourney的无限画布功能、苹果的STIV视频模型、YouTube的AI自动配音功能等。最后，文章提到了AI的发展对人类社会和职业的影响，以及大型AI实验室的新范式开发。

关键观点总结

关键观点1: 苹果首款AI服务器芯片Baltra预计2026年量产，采用模块化设计和N3P工艺，目标提高性能和降低复杂性。

Baltra将依赖博通提供设计服务，并由台积电制造，计划明年推出采用N3P工艺的iPhone芯片。

关键观点2: 谷歌发布Gemini 2.0 Flash，具备原生多模态输入输出和Agent功能，支持AI代理应用如编程助手Jules等。

Gemini 2.0还具备空间理解、视频理解等能力，并支持自定义第三方函数。

关键观点3: 苹果设备将原生接入ChatGPT技术，提供深度整合的AI功能，如高级视觉功能等。

iPhone 16及以上型号将支持ChatGPT的高级视觉功能，Siri与ChatGPT协同工作以提升用户体验。

关键观点4: Midjourney推出Patchwork无限画布功能，用户可以创建虚拟世界并与人协作。

Patchwork支持工具箱生成故事实体、绘制图像等功能。

关键观点5: 苹果发布STIV模型处理T2V和TI2V任务，采用时空注意力分解等技术提升视频生成质量。

STIV模型可扩展至视频预测、帧插值等任务。

关键观点6: YouTube推出AI自动配音功能，支持多种语言翻译。

该功能目前面向教学类内容频道开放，未来有望扩展到更多类型的视频。

关键观点7: 谷歌预告AI智能眼镜开放预约测试，集成最新Gemini 2.0。

该智能眼镜支持多语言、记忆功能及上下文理解，通过镜头、地图和搜索获取实时信息。

关键观点8: Ayar Labs获得英伟达、AMD、英特尔等巨头投资，专注于光互连技术解决AI数据中心性能瓶颈。

该公司与竞争者共同推动AI基础设施革新，未来目标是大规模生产和出货。

关键观点9: 人工智能发展引发对人性本质的思考，包括意识和感情的重要性。

人工智能的发展可能导致对人类社会结构和职业的根本性改变。

正文

生成式AI

一、苹果首款 AI 服务器芯片 Baltra，最新工艺预计 2026 年量产

1. 苹果正在开发代号为Baltra的AI芯片，计划2026年量产，专为AI任务加速；

2. 该芯片采用模块化设计和N3P工艺，目标提高性能和降低复杂性，预计与NVIDIA和OpenAI的芯片竞争；

3. 苹果将通过博通提供设计服务，并依赖台积电制造，计划明年推出采用N3P工艺的iPhone芯片。

https://mp.weixin.qq.com/s/P4x2v_ngT66MjQQDMe0inw

二、抢跑OpenAI！谷歌Gemini 2.0：全面转向Agent，多模态

1. 谷歌发布Gemini 2.0 Flash，具备原生多模态输入输出、Agent功能，性能比1.5 Pro快两倍；

2. 新功能包括空间理解、视频理解、实时音视频流输入、原生工具调用，并支持自定义第三方函数；

3. Gemini 2.0支持AI代理应用，如编程助手Jules、数据分析代理、智能助手Project Astra等，且免费开放API。

https://mp.weixin.qq.com/s/wYxuNCjCQM4lDm1uQ4bRUw

三、 OpenAI Day5：iPhone、iPad、Mac可原生使用ChatGPT

1. 苹果设备（iPhone、iPad、Mac、Siri）将原生接入ChatGPT，提供深度整合的AI功能；

2. iPhone 16及以上型号将支持ChatGPT的高级视觉功能，识别图像元素并提供个性化建议；

3. Siri与ChatGPT协同工作，提升理解、生成与执行能力，为用户提供更精准的智能助手体验。

https://mp.weixin.qq.com/s/idd5kh9KRi02B1ucBACVMw

四、 Midjourney打开新世界：Patchwork，无限画布使用指南

1. Midjourney推出Patchwork无限画布，用户可创建虚拟世界并与他人协作；

2. 通过工具箱生成故事实体、绘制图像并链接内容，支持AI生成和细节扩展；

3. 用户可保存和分享自己的世界，设置权限、邀请他人共同创作，探索新的虚拟体验。 https://mp.weixin.qq.com/s/XK6IPlQFCp8nll1fqFSBJQ

五、 Sora后，苹果发布视频模型STIV，87亿参数一统T2V、TI2V

1. 苹果发布了87亿参数的STIV模型，统一处理T2V和TI2V任务，提升视频生成质量；

2. 采用时空注意力分解、图像条件随机丢弃等创新，优化训练稳定性与效率；

3. STIV模型可扩展至视频预测、帧插值、长视频生成等任务，对标现有领先模型。

https://mp.weixin.qq.com/s/6mbe80LmzkH-5eGgIys6PQ

六、打破语言障碍，不仅是字幕，YouTube 支持 AI 自动配音

1. YouTube推出AI自动配音功能，帮助创作者生成翻译音轨，支持多种语言；

2. 功能目前面向教学类内容频道，未来将扩展到更多类型的视频；

3. 该技术基于Google Gemini，仍处于开发阶段，可能存在翻译误差或配音不精确的问题。

https://mp.weixin.qq.com/s/5qudulJPJ8Lfav69yEPAFg

七、谷歌预告AI智能眼镜，开启预约测试，集成最新Gemini 2

1. 谷歌宣布Project Astra原型智能眼镜开放预约测试，集成最新Gemini 2.0，主打AI智能体与多模态功能；

2. Astra支持多语言、记忆功能及上下文理解，能通过镜头、地图和搜索获取实时信息；

3. 用户可通过Android应用体验Astra，智能眼镜与AI助手无缝集成，提供更沉浸式体验。

https://mp.weixin.qq.com/s/tTaeWGfnqjXPuAxnOF2KcQ

前沿科技

八、 Nvidia、AMD、Intel罕见联手，投资一家光芯片初创公司

1. Ayar Labs获得英伟达、AMD、英特尔等巨头投资，估值超10亿美元，成为AI芯片独角兽；

2. 公司专注于光互连技术，解决传统铜互连在AI数据中心中的性能瓶颈，提供更高带宽、更低能耗和延迟；

3. Ayar Labs与光互连竞争者如Lightium、Lightmatter等共同推动AI基础设施革新，未来目标是大规模生产和出货。

https://mp.weixin.qq.com/s/P6bLq25dzcq1j-cto20DRQ