本文报道了关于生成式AI、音频版ControlNet、谷歌的Monkey方法、Meta发布的数据集Nymeria、阶跃星辰的技术进展、百川推出的金融大模型Baichuan4-Finance以及o3 mini背后团队的相关信息。同时,还介绍了英伟达和MIT合作开发的ExBody2系统、LangChain团队发布的《2024人工智能全景报告》、微软CEO纳德拉的年终访谈内容。
他们发布了VSI-Bench基准测试,可提升MLLM的视觉空间智能评估水平。研究表明语言提示技术如CoT对空间推理无效,需开发更有效的空间记忆机制。
它基于DiT模型实现,采用随机中值滤波允许灵活时间精度的控制信号提示。模型智能化生成声音,能在不同场景下自动调整生成结果。
数据集涵盖多种生活场景,结合自然语言描述促进个性化AI助手的发展。Nymeria数据集推动AR/VR和情境AI技术的进步。
公司专注于C端应用,推动「超级模型」和「超级应用」的开发。尽管投资市场环境紧张,但凭借技术实力和市场认可获得持续支持。
该模型采用首创的自约束训练方案,确保在提升领域能力的同时不降低通用能力。Baichuan4-Finance在金融行业中提高了运营效率、风控合规、客户服务和决策支持。
ExBody2采用关键点跟踪和速度控制的局部导航系统,使机器人能够灵活应对环境变化。在真实环境中展示了优越的稳定性和灵活性。
报告还反映了开源模型的普及和对灵活部署和个性化AI基础设施的需求增长。开发者倾向于使用多步骤智能体来增加应用复杂性并提升效率和输出质量。
微软与OpenAI的合作使其在AI领域拥有两年先发优势。纳德认为AI智能体将改变商业应用的存在形式,记忆、工具使用和权限管理是智能体发展的关键要素。
生成式AI
一、 李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,世界模型雏形
1. 李飞飞和谢赛宁团队发现多模态LLM具备记忆和回忆空间的能力,形成局部世界模型和空间意识;
2. 研究发布VSI-Bench基准测试,包含5000多对视觉问答,可提升MLLM的视觉空间智能评估水平;
3. 另一方面,研究表明语言提示技术如CoT对空间推理无效,需开发更有效的空间记忆机制;
https://mp.weixin.qq.com/s/HAVxsFmbymgORPBzwpa4RQ
二、 音频版ControlNet!Adobe发声音模仿新方法Sketch2Sound
1. Sketch2Sound通过提取音量、亮度和音高等控制信号,将声音模仿转换为新声音生成,基于DiT模型实现,微调步骤少,模型轻量化;
2. 采用随机中值滤波,允许灵活时间精度的控制信号提示,声音艺术家可在“草图感”和“精确度”之间选择;
3. 模型智能化生成声音,结合文本提示和声音手势,能在不同场景下自动调整生成结果。
https://mp.weixin.qq.com/s/R7XapiM78xetrVuxjeKxLA
三、 o3并非独门秘技,谷歌曾发布Monkey,来自于无限猴子定理
1. 谷歌团队通过重复采样扩展推理计算,提升小模型性能,成本更低,性能可超越大型模型;
2. 重复采样提高覆盖率和精确度,适用于多种数学和编程任务,成本效益显著;
3. 这套方法重复采样简单,适合编码和数学任务,但在结构化推理任务中的表现不如o3。
https://mp.weixin.qq.com/s/qdxC_QyJW17gyRfN66D59A
四、 最大多模态数字人运动数据集?Meta为AI眼镜、AR设备打造
1. Meta发布Nymeria数据集,包含300小时多模态第一人称人体运动数据,支持AR/VR设备的精准运动预测;
2. 数据集涵盖20种生活场景,帮助智能眼镜和AI助手更好地捕捉和预测人体运动,提升用户体验;
3. Nymeria数据集通过结合自然语言描述,促进个性化AI助手的发展,推动AR/VR和情境AI技术的进步。
https://mp.weixin.qq.com/s/-2550CtaUzqcaNbIaCarNQ
五、 阶跃星辰再融数亿美元!发力「超级模型」+「超级应用」
1. 阶跃星辰完成数亿美元B轮融资,尽管投资市场环境紧张,但其凭借技术实力和市场认可获得持续支持;
2. 公司在大模型领域展现出强大技术实力,推出多个自研基座模型,并在国际榜单中取得优异成绩;
3. 阶跃星辰专注于C端应用,推动「超级模型」和「超级应用」的开发,通过自研应用和生态合作扩展用户体验。
https://mp.weixin.qq.com/s/pOopgWoAsDZrSPUP6uzbyQ
六、 百川主打「领域增强」发布金融大模型Baichuan4-Finance
1. 百川智能推出的Baichuan4-Finance模型在金融领域表现优异,超越GPT-4o近20%,并在多个金融评测中名列前茅;
2. 该模型采用首创的自约束训练方案,确保在提升领域能力的同时不降低通用能力,适用于多个垂直领域;
3. Baichuan4-Finance在金融行业中重点提高了运营效率、风控合规、客户服务和决策支持,可显著优化金融机构的运营。
https://mp.weixin.qq.com/s/7oupuln3BQHPa7zpfGdMXQ
七、 o3-mini背后团队:3位华人核心成员,北大清华南开校友在列
1. o3-mini以更低的价格和与o1 mini相当的性能引发AI圈热议,显示OpenAI在降低成本的同时提高性能的能力;
2. o3-mini背后有三位华人核心成员,包括任泓宇、赵盛佳和Kevin Lu,他们在OpenAI的研发中扮演重要角色;
3. o3-mini支持多种思考程度设置,性能在中高设置下超过o1 mini,预计明年1月底推出完整版本。
https://mp.weixin.qq.com/s/A0GWdYjGJSrayA8qmd1W7Q
前沿科技
八、 英伟达和MIT研究出新魔法ExBody2:让机器人“推不倒”
1. 英伟达和MIT开发的ExBody2系统通过模仿人类运动节奏和方向,提升了双足机器人的平衡和适应能力,使其在动态环境中表现更稳定。
2. ExBody2采用关键点跟踪和速度控制的局部导航系统,避免了传统全局控制的僵硬问题,使机器人能够灵活应对环境变化。
3. 通过分级动作数据集和虚拟到现实的学习架构,ExBody2在真实环境中展示了优越的稳定性和灵活性,适用于多种应用场景。
https://mp.weixin.qq.com/s/64_MVU4NHY7E9iBYiWl1vg
报告观点
九、 连续第七年,LangChain团队《2024人工智能全景报告》出炉
1. OpenAI仍是最常用的大语言模型供应商,其使用率远超其他竞争者;
2. 开源模型采用率显著上升,Ollama和Groq等公司跻身行业前列,反映出市场对灵活部署和个性化AI基础设施的需求;
3. 开发者倾向于使用多步骤智能体来增加应用复杂性,并通过减少模型调用次数和引入质量检查机制提升效率和输出质量。
https://mp.weixin.qq.com/s/6wkL-6IJ51ggr5WgnHC-Ow
十、 微软CEO纳德拉年终访谈!赞同黄仁勋,坦露与OpenAI分歧
1. 纳德拉认为微软的成功在于准确把握市场定位和成长型思维,避免因傲慢而衰败,并通过云计算和AI实现转型;
2. 微软与OpenAI的合作使其在AI领域拥有两年先发优势,但在算力投资上保持谨慎,与OpenAI CEO Sam Altman存在分歧;
3. 纳德拉认为AI智能体将改变商业应用的存在形式,记忆、工具使用和权限管理是智能体发展的关键要素。
https://mp.weixin.qq.com/s/No6ND7Llo6M5owKn9e9Ziw
👇订阅下方合集,获取每日推送