本文主要报道了关于生成式AI的多个新进展,包括ChatGPT、Google、Midjourney、Ray-Ban Meta智能眼镜、DeepSeek-VL2、Tokenization技术、Llama模型、智谱融资、宇树机器人以及Scale AI创始人的观点等多个方面。
ChatGPT搜索功能向所有用户免费开放,并新增语音搜索服务,支持自然对话和多种语音风格,集成实时数据和地图服务。
谷歌发布的新工具组合包括支持4K高清、精细物理理解和高级相机控制的Veo 2,提升图像质感和构图精准的Imagen 3,以及通过图像作为prompt简化创作流程的Whisk。
Midjourney新功能允许用户通过上传图片集个性化训练AI模型,创建多个个性化档案,并增强创作者对项目的控制与灵活性。
Ray-Ban Meta智能眼镜现在支持实时AI功能,增强实时翻译功能,并集成了Shazam功能,可通过语音命令识别歌曲。
DeepSeek发布了开源的DeepSeek-VL2,其性能优于Qwen1.5和LLaMA3,通过动态高分辨率视觉编码、改进MoE机制和数据扩展,提升了视觉语言理解能力。
Meta等发布了Byte Latent Transformer(BLT),这是一个无需传统tokenizer的架构,直接建模字节流,提高了计算效率和模型性能。
包括智谱完成新一轮融资用于GLM大模型研发,商业化收入增长超100%;宇树机器人更新开源强化学习代码,支持从训练到仿真和实操的过程等。
Scale AI创始人表示中美AI差距在缩小,特别是在“思维循环”技术方面。他还提到数据稀缺性将是AI发展的瓶颈,到2025年AI智能体将成为重要的创业机会。
生成式AI
一、 OpenAI Day8:ChatGPT搜索功能全面开放、新增语音搜索
1. ChatGPT搜索功能向所有用户免费开放,用户可通过OpenAI账户使用并设为默认搜索引擎;
2. 新增语音搜索服务,支持自然对话和多种语音风格,提升用户交互体验;
3. 集成实时数据和地图服务,与顶级数据提供商合作,提供最新信息和丰富的搜索结果。
https://mp.weixin.qq.com/s/8jdPVn-12qiOOZajrCqQHw
二、 Google正面硬刚,发布 Veo 2、Imagen 3、Whisk一套组合拳
1. 谷歌发布Veo 2、Imagen 3及Whisk,视频和图像生成超越OpenAI的Sora;
2. Veo 2支持4K高清、精细物理理解和高级相机控制,实现电影级视频效果;
3. Imagen 3提升图像质感与构图精准,Whisk通过图像作为prompt简化创作流程。
https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ
三、 Midjourney推出个性化档案和情绪板Moodboards新功能
1. Midjourney推出Moodboards功能,允许用户通过上传图片集个性化训练AI模型;
2. 用户可创建多个个性化档案,快速调整模型输出,提升创作效率;
3. 新功能支持情绪板生成与模型评分训练,增强创作者对项目的控制与灵活性。
https://mp.weixin.qq.com/s/tprzWyOTIwch6TQGkcCU6A
四、 Ray-Ban Meta智能眼镜新增实时AI、翻译、Shazam功能
1. Ray-Ban Meta智能眼镜新增实时AI功能,支持与用户自然互动并协助日常活动;
2. 增强实时翻译功能,支持英语与西班牙语、法语、意大利语之间的实时转译;
3. 集成Shazam功能,用户可通过语音命令识别歌曲。
https://mp.weixin.qq.com/s/HFI6R2chq2roNESCNkBxhA
五、 DeepSeek-VL2视觉对话大提升,发布即开源,技术全公开
1. DeepSeek发布DeepSeek-VL2,开源并全面公开技术细节;
2. DeepSeek-VL2性能优于Qwen1.5和LLaMA3,降低模型参数和训练成本;
3. 通过动态高分辨率视觉编码、改进MoE机制和数据扩展,提升视觉语言理解能力。
https://mp.weixin.qq.com/s/NVUbPkLmxiASN47Qf4f6dw
六、 Tokenization不存在了?Meta最新研究,无需Tokenizer的架构
1. Meta等发布Byte Latent Transformer(BLT),无需传统tokenizer,直接建模字节流;
2. BLT通过动态分组字节为patch,提升计算效率和模型性能,开源公开技术细节;
3. BLT在多项任务中超越基于token的模型,推理计算资源减少达50%。
https://mp.weixin.qq.com/s/7ju-PjPZVPrBLQ1qFnFoKw
七、 Llama版o1,通过逆向工程,复现OpenAI新Scaling Law
1. Hugging Face开源Llama o1小模型,3B参数超越80B模型;
2. 采用多样化验证器树搜索和Search and Learn工具包,优化搜索策略;
3. 逆向工程复现OpenAI新Scaling Law,实现高效计算和推理性能提升。。
https://mp.weixin.qq.com/s/IVsbnZZTAsNXwRvr9lqZlg
八、 智谱完成新一轮30亿人民币融资,资方包括多家战投及国资
1. 智谱完成新一轮三十亿人民币融资,吸引多家战投及国资参与;
2. 资金用于GLM大模型系列研发,支持复杂推理和多模态任务;
3. 商业化收入增长超100%,MaaS平台用户达70万,覆盖多行业。
https://mp.weixin.qq.com/s/Nr8X04bXVTgeMTt9i0FlEw
前沿科技
九、 宇树机升级强化学习开源代码,训练到仿真和实操手把手教学
1. 宇树机器人更新开源强化学习代码,支持从训练、仿真到真机部署的全过程;
2. 新增MuJoCo模拟仿真支持,并提供详细的手把手教程;
3. 宇树还开源了其他项目,如机器人系统的模拟包、数据集和激光雷达算法。
https://mp.weixin.qq.com/s/tco3-9-9DZa9u1z3eIuiaQ
报告观点
十、 Scale AI 创始人:中美差距在缩小,Agent是25 年最大创业机会
1. 中美AI技术差距正在缩小,尤其在“思维循环”技术方面中国取得突破,未来两国AI竞争将影响全球技术主导地位;
2. 数据稀缺性将成为AI发展瓶颈,必须同步提升数据扩展和计算能力才能突破限制;
3. 到2025年,AI智能体将成为重要创业机会,改变C端和B端的互动方式。
https://mp.weixin.qq.com/s/kBP1vcXqS3jpw-KK2ElkjQ
👇订阅下方合集,获取每日推送