专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

腾讯研究院AI速递 20241218

腾讯研究院 · 公众号 · 科技媒体 · 2024-12-18 00:01

主要观点总结

本文主要报道了关于生成式AI的多个新进展，包括ChatGPT、Google、Midjourney、Ray-Ban Meta智能眼镜、DeepSeek-VL2、Tokenization技术、Llama模型、智谱融资、宇树机器人以及Scale AI创始人的观点等多个方面。

关键观点总结

关键观点1: ChatGPT搜索功能全面开放和新增语音搜索。

ChatGPT搜索功能向所有用户免费开放，并新增语音搜索服务，支持自然对话和多种语音风格，集成实时数据和地图服务。

关键观点2: Google发布Veo 2、Imagen 3和Whisk。

谷歌发布的新工具组合包括支持4K高清、精细物理理解和高级相机控制的Veo 2，提升图像质感和构图精准的Imagen 3，以及通过图像作为prompt简化创作流程的Whisk。

关键观点3: Midjourney推出个性化档案和情绪板（Moodboards）新功能。

Midjourney新功能允许用户通过上传图片集个性化训练AI模型，创建多个个性化档案，并增强创作者对项目的控制与灵活性。

关键观点4: Ray-Ban Meta智能眼镜新增实时AI、翻译和Shazam功能。

Ray-Ban Meta智能眼镜现在支持实时AI功能，增强实时翻译功能，并集成了Shazam功能，可通过语音命令识别歌曲。

关键观点5: DeepSeek-VL2视觉对话能力提升并开源。

DeepSeek发布了开源的DeepSeek-VL2，其性能优于Qwen1.5和LLaMA3，通过动态高分辨率视觉编码、改进MoE机制和数据扩展，提升了视觉语言理解能力。

关键观点6: Meta发布无需Tokenizer的架构Byte Latent Transformer（BLT）。

Meta等发布了Byte Latent Transformer（BLT），这是一个无需传统tokenizer的架构，直接建模字节流，提高了计算效率和模型性能。

关键观点7: 其他公司的进展和融资情况。

包括智谱完成新一轮融资用于GLM大模型研发，商业化收入增长超100%；宇树机器人更新开源强化学习代码，支持从训练到仿真和实操的过程等。

关键观点8: Scale AI创始人观点。

Scale AI创始人表示中美AI差距在缩小，特别是在“思维循环”技术方面。他还提到数据稀缺性将是AI发展的瓶颈，到2025年AI智能体将成为重要的创业机会。

正文

生成式AI

一、 OpenAI Day8：ChatGPT搜索功能全面开放、新增语音搜索

1. ChatGPT搜索功能向所有用户免费开放，用户可通过OpenAI账户使用并设为默认搜索引擎;

2. 新增语音搜索服务，支持自然对话和多种语音风格，提升用户交互体验;

3. 集成实时数据和地图服务，与顶级数据提供商合作，提供最新信息和丰富的搜索结果。

https://mp.weixin.qq.com/s/8jdPVn-12qiOOZajrCqQHw

二、 Google正面硬刚，发布 Veo 2、Imagen 3、Whisk一套组合拳

1. 谷歌发布Veo 2、Imagen 3及Whisk，视频和图像生成超越OpenAI的Sora；

2. Veo 2支持4K高清、精细物理理解和高级相机控制，实现电影级视频效果；

3. Imagen 3提升图像质感与构图精准，Whisk通过图像作为prompt简化创作流程。

https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ

三、 Midjourney推出个性化档案和情绪板Moodboards新功能

1. Midjourney推出Moodboards功能，允许用户通过上传图片集个性化训练AI模型；

2. 用户可创建多个个性化档案，快速调整模型输出，提升创作效率；

3. 新功能支持情绪板生成与模型评分训练，增强创作者对项目的控制与灵活性。

https://mp.weixin.qq.com/s/tprzWyOTIwch6TQGkcCU6A

四、 Ray-Ban Meta智能眼镜新增实时AI、翻译、Shazam功能

1. Ray-Ban Meta智能眼镜新增实时AI功能，支持与用户自然互动并协助日常活动；

2. 增强实时翻译功能，支持英语与西班牙语、法语、意大利语之间的实时转译；

3. 集成Shazam功能，用户可通过语音命令识别歌曲。

https://mp.weixin.qq.com/s/HFI6R2chq2roNESCNkBxhA

五、 DeepSeek-VL2视觉对话大提升，发布即开源，技术全公开

1. DeepSeek发布DeepSeek-VL2，开源并全面公开技术细节；

2. DeepSeek-VL2性能优于Qwen1.5和LLaMA3，降低模型参数和训练成本；

3. 通过动态高分辨率视觉编码、改进MoE机制和数据扩展，提升视觉语言理解能力。

https://mp.weixin.qq.com/s/NVUbPkLmxiASN47Qf4f6dw

六、 Tokenization不存在了？Meta最新研究，无需Tokenizer的架构

1. Meta等发布Byte Latent Transformer（BLT），无需传统tokenizer，直接建模字节流；

2. BLT通过动态分组字节为patch，提升计算效率和模型性能，开源公开技术细节；

3. BLT在多项任务中超越基于token的模型，推理计算资源减少达50%。

https://mp.weixin.qq.com/s/7ju-PjPZVPrBLQ1qFnFoKw

七、 Llama版o1，通过逆向工程，复现OpenAI新Scaling Law

1. Hugging Face开源Llama o1小模型，3B参数超越80B模型；

2. 采用多样化验证器树搜索和Search and Learn工具包，优化搜索策略；

3. 逆向工程复现OpenAI新Scaling Law，实现高效计算和推理性能提升。。

https://mp.weixin.qq.com/s/IVsbnZZTAsNXwRvr9lqZlg

八、智谱完成新一轮30亿人民币融资，资方包括多家战投及国资

1. 智谱完成新一轮三十亿人民币融资，吸引多家战投及国资参与；

2. 资金用于GLM大模型系列研发，支持复杂推理和多模态任务；

3. 商业化收入增长超100%，MaaS平台用户达70万，覆盖多行业。

https://mp.weixin.qq.com/s/Nr8X04bXVTgeMTt9i0FlEw

前沿科技

九、宇树机升级强化学习开源代码，训练到仿真和实操手把手教学