专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
36氪  ·  海底捞背后的预制菜巨头,一年狂揽百亿 ·  22 小时前  
滨州市场监管  ·  市场监管的温柔与坚韧——滨州市场监管巾帼力量 ·  2 天前  
i黑马  ·  Manus邀请码被炒至5万 ... ·  3 天前  
新浪科技  ·  【#波士顿动力人形机器人进厂搬砖# ... ·  4 天前  
51好读  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20241213

腾讯研究院  · 公众号  · 科技媒体  · 2024-12-13 00:01

主要观点总结

这篇文章介绍了苹果、谷歌等科技巨头在AI领域的最新进展,包括苹果的首款AI服务器芯片Baltra、谷歌的Gemini 2.0和AI代理应用、OpenAI与苹果设备的深度整合等。此外,文章还涉及Midjourney的无限画布功能、苹果的STIV视频模型、YouTube的AI自动配音功能等。最后,文章提到了AI的发展对人类社会和职业的影响,以及大型AI实验室的新范式开发。

关键观点总结

关键观点1: 苹果首款AI服务器芯片Baltra预计2026年量产,采用模块化设计和N3P工艺,目标提高性能和降低复杂性。

Baltra将依赖博通提供设计服务,并由台积电制造,计划明年推出采用N3P工艺的iPhone芯片。

关键观点2: 谷歌发布Gemini 2.0 Flash,具备原生多模态输入输出和Agent功能,支持AI代理应用如编程助手Jules等。

Gemini 2.0还具备空间理解、视频理解等能力,并支持自定义第三方函数。

关键观点3: 苹果设备将原生接入ChatGPT技术,提供深度整合的AI功能,如高级视觉功能等。

iPhone 16及以上型号将支持ChatGPT的高级视觉功能,Siri与ChatGPT协同工作以提升用户体验。

关键观点4: Midjourney推出Patchwork无限画布功能,用户可以创建虚拟世界并与人协作。

Patchwork支持工具箱生成故事实体、绘制图像等功能。

关键观点5: 苹果发布STIV模型处理T2V和TI2V任务,采用时空注意力分解等技术提升视频生成质量。

STIV模型可扩展至视频预测、帧插值等任务。

关键观点6: YouTube推出AI自动配音功能,支持多种语言翻译。

该功能目前面向教学类内容频道开放,未来有望扩展到更多类型的视频。

关键观点7: 谷歌预告AI智能眼镜开放预约测试,集成最新Gemini 2.0。

该智能眼镜支持多语言、记忆功能及上下文理解,通过镜头、地图和搜索获取实时信息。

关键观点8: Ayar Labs获得英伟达、AMD、英特尔等巨头投资,专注于光互连技术解决AI数据中心性能瓶颈。

该公司与竞争者共同推动AI基础设施革新,未来目标是大规模生产和出货。

关键观点9: 人工智能发展引发对人性本质的思考,包括意识和感情的重要性。

人工智能的发展可能导致对人类社会结构和职业的根本性改变。


正文

生成式AI

一、  苹果首款 AI 服务器芯片 Baltra,最新工艺预计 2026 年量产

1. 苹果正在开发代号为Baltra的AI芯片,计划2026年量产,专为AI任务加速;

2. 该芯片采用模块化设计和N3P工艺,目标提高性能和降低复杂性,预计与NVIDIA和OpenAI的芯片竞争;

3. 苹果将通过博通提供设计服务,并依赖台积电制造,计划明年推出采用N3P工艺的iPhone芯片。

https://mp.weixin.qq.com/s/P4x2v_ngT66MjQQDMe0inw

二、  抢跑OpenAI!谷歌Gemini 2.0:全面转向Agent,多模态

1. 谷歌发布Gemini 2.0 Flash,具备原生多模态输入输出、Agent功能,性能比1.5 Pro快两倍;

2. 新功能包括空间理解、视频理解、实时音视频流输入、原生工具调用,并支持自定义第三方函数;

3. Gemini 2.0支持AI代理应用,如编程助手Jules、数据分析代理、智能助手Project Astra等,且免费开放API。

https://mp.weixin.qq.com/s/wYxuNCjCQM4lDm1uQ4bRUw

三、  OpenAI Day5:iPhone、iPad、Mac可原生使用ChatGPT

1. 苹果设备(iPhone、iPad、Mac、Siri)将原生接入ChatGPT,提供深度整合的AI功能;

2. iPhone 16及以上型号将支持ChatGPT的高级视觉功能,识别图像元素并提供个性化建议;

3. Siri与ChatGPT协同工作,提升理解、生成与执行能力,为用户提供更精准的智能助手体验。

https://mp.weixin.qq.com/s/idd5kh9KRi02B1ucBACVMw

四、  Midjourney打开新世界:Patchwork,无限画布使用指南

1. Midjourney推出Patchwork无限画布,用户可创建虚拟世界并与他人协作;

2. 通过工具箱生成故事实体、绘制图像并链接内容,支持AI生成和细节扩展;

3. 用户可保存和分享自己的世界,设置权限、邀请他人共同创作,探索新的虚拟体验。 https://mp.weixin.qq.com/s/XK6IPlQFCp8nll1fqFSBJQ

五、  Sora后,苹果发布视频模型STIV,87亿参数一统T2V、TI2V

1. 苹果发布了87亿参数的STIV模型,统一处理T2V和TI2V任务,提升视频生成质量;

2. 采用时空注意力分解、图像条件随机丢弃等创新,优化训练稳定性与效率;

3. STIV模型可扩展至视频预测、帧插值、长视频生成等任务,对标现有领先模型。

https://mp.weixin.qq.com/s/6mbe80LmzkH-5eGgIys6PQ

六、  打破语言障碍,不仅是字幕,YouTube 支持 AI 自动配音

1. YouTube推出AI自动配音功能,帮助创作者生成翻译音轨,支持多种语言;

2. 功能目前面向教学类内容频道,未来将扩展到更多类型的视频;

3. 该技术基于Google Gemini,仍处于开发阶段,可能存在翻译误差或配音不精确的问题。

https://mp.weixin.qq.com/s/5qudulJPJ8Lfav69yEPAFg

七、  谷歌预告AI智能眼镜,开启预约测试,集成最新Gemini 2

1. 谷歌宣布Project Astra原型智能眼镜开放预约测试,集成最新Gemini 2.0,主打AI智能体与多模态功能;

2. Astra支持多语言、记忆功能及上下文理解,能通过镜头、地图和搜索获取实时信息;

3. 用户可通过Android应用体验Astra,智能眼镜与AI助手无缝集成,提供更沉浸式体验。

https://mp.weixin.qq.com/s/tTaeWGfnqjXPuAxnOF2KcQ

前沿科技

八、  Nvidia、AMD、Intel罕见联手,投资一家光芯片初创公司

1. Ayar Labs获得英伟达、AMD、英特尔等巨头投资,估值超10亿美元,成为AI芯片独角兽;

2. 公司专注于光互连技术,解决传统铜互连在AI数据中心中的性能瓶颈,提供更高带宽、更低能耗和延迟;

3. Ayar Labs与光互连竞争者如Lightium、Lightmatter等共同推动AI基础设施革新,未来目标是大规模生产和出货。

https://mp.weixin.qq.com/s/P6bLq25dzcq1j-cto20DRQ







请到「今天看啥」查看全文