生成式AI
一、 苹果最强M3 Ultra的Mac Studio发布,512GB「桌面超算」
1. M3 Ultra芯片集成1840亿晶体管,性能是M1 Ultra的2.5倍,支持512GB统一内存;
2. 搭载M3 Ultra的Mac Studio可在本地运行超6000亿参数LLM,或成为首个能在家运行DeepSeek-R1的桌面超算;
3. 新款Mac Studio还配备M4 Max选项,同时推出搭载M4芯片的天蓝色MacBook Air。
https://mp.weixin.qq.com/s/ccMeRqoUsasTo513KrcK_g
二、 最高或达2万美元一月!OpenAI将推出博士级AI Agent产品
1. OpenAI计划推出不同级别Agent:低端2000美元/月,中端面向开发者1万美元/月,博士级研究助手2万美元/月;
2. 高价Agent主要瞄准金融分析、股票预测、医学研究等高回报领域,OpenAI认为这些价格相对真实博士员工成本是合理的;
3. 争议声浪高:部分观点认为与聘请真人成本相近失去价值,也有声音质疑定价是营销策略而非基于实际能力。
https://mp.weixin.qq.com/s/deWqdr8DMsdEmQYFY8d9sg
三、 实测 Manus :我用它生成了 10 个邀请码,好玩但还不够好用
1. Manus具备独立思考能力,通过多模型、多独立Agent缝合,将人机交互升级为人机协作;
2. Manus系统表现出强大的复杂任务处理能力,能自动分解步骤、联网搜索,但目前服务器超负载导致频繁崩溃;
3. 用户使用Manus可以观察其思考路径和工作流程,提高AI可解释性,虽被质疑"套壳"但产品体验超越同类方案。
https://mp.weixin.qq.com/s/c-BrGnTgmqI9oe-HXSpS8Q
四、 腾讯混元开源图生视频模型,同步上线音频与动作驱动能力
1. 腾讯混元发布并开源图生视频模型,支持图片转视频、口型和动作驱动,并能生成背景音效及2K高质量视频;
2. 模型总参数量保持130亿,适用于写实视频、动漫角色及CGI角色制作,开源内容包含权重、推理代码和LoRA训练代码;
3. 混元开源系列模型已覆盖文本、图像、视频和3D生成多模态,在Github上累计获得超2.3万开发者关注和star。
https://mp.weixin.qq.com/s/aOeJoWyQ78o45KlJnAtAkg
五、 QwQ-32B推理模型开源,对标671B满血DeepSeek-R1
1. 阿里千问发布QwQ-32B开源推理模型,仅320亿参数就媲美671B的DeepSeek-R1,超越o1-mini,支持消费级设备运行;
2. QwQ-32B采用多阶段强化学习训练策略,在数学、编程、通用能力等方面表现卓越,文字生成能力与思考逻辑媲美DeepSeek-R1;
3. 模型以Apache2.0协议开源,量化版本最小仅需13GB空间,普通电脑和笔记本即可部署,输出速度可达30+token/s。
https://mp.weixin.qq.com/s/EH3cLd-nnOT5ZBFBts92MA
六、 Amazon成立AI Agent团队,或成为下一个数十亿美元业务
1. 亚马逊在AWS内部组建专门的AI Agent团队,有望成为下一个数十亿美元业务,由前AWS AI和数据团队负责人Swami Sivasubramanian领导;
2. 亚马逊近期已展示Alexa+的升级功能,能自动预订Uber、浏览网站等,展现更强大的自主能力;
3. AWS部门可能计划开发企业级Agent,与Salesforce和微软竞争,为企业客户自动化工作相关任务。
https://mp.weixin.qq.com/s/uB17eWY1y09TJnePA1KhEw
七、 AI话痨终结者!UCSD清华提出「思维扫描术」Dynasor-CoT
1. UCSD与清华研究团队提出Dynasor-CoT方法,通过"思维CT扫描术"识别并解决AI模型在推理过程中的"自我怀疑"问题;
2. 该方法无需训练,能在保持准确性的同时减少高达29%的token消耗,通过提取答案、确定性评估和生成后验证三种机制提高效率;
3. 实验表明,在数学推理任务中,最优情况下可节省53%-81%的token,DeepSeek-R1模型使用此方法能在AIME和AMC问题上分别减少12%和24%的token消耗。
https://mp.weixin.qq.com/s/HVnWueo_9yWzIyS_8aJWOg
八、 智源开源多模态向量模型BGE-VL,实现多模态检索新突破
1. 智源研究院联合多所高校开发多模态向量模型BGE-VL,通过MegaPairs大规模合成数据训练,在各类多模态检索任务中表现最佳;
2. MegaPairs具备优异可扩展性和高质量数据,仅需传统方法1/70的数据量即可实现更优训练效果,能以低成本持续生成多样化高质量的多模态三元组;
3. BGE-VL在MMEB和CIRCO等基准测试中显著超越现有模型,包括Google的MagicLens和NVIDIA的MM-Embed,BGE-VL-MLLM较此前SOTA模型提升8.1个百分点。
https://mp.weixin.qq.com/s/iw9BmSDwv6NYtD7pkC5kxQ
前沿科技