本文介绍了与生成式AI相关的多篇文章,包括OpenAI的深度研究工具、多个开源版的Deep Research、Ai2发布的Tülu 3模型、人形机器人公司Figure与OpenAI的合作终止、AI编程的分级、字节OmniHuman的技术、Meta推出的AI智能穿戴设备、国家超算互联网的DeepSeek多模型以及英伟达机器人跳APT舞等前沿科技进展和报告观点。
文章介绍了OpenAI的深度研究工具,它能够以接近专业分析师的水准在短时间内完成方案制定,涉及医疗决策、金融风险、技术趋势等领域,并提供了订阅服务的详细信息。
文章阐述了多个开源版本如Open Deep Research、OpenDeepResearcher和node-DeepResearch的功能和特点,这些版本实现了与OpenAI工具类似的功能,并且有一些独特之处。
文章详细描述了Ai2发布的Tülu 3模型的特点,包括其性能提升、训练配方以及可验证奖励强化学习的应用。
文章报道了Figure与OpenAI合作的终止,并深入探讨了Figure的自主研发计划和取得的进展。
文章介绍了AI编程的五个等级以及每个等级的工具能够实现的功能,开发者可以根据需求选择不同级别的工具。
文章介绍了字节OmniHuman的技术特点,包括能够支持任意尺寸和人物占比的图片配合音频生成高自然度的人物视频等。
文章报道了Meta计划推出的多款AI驱动的可穿戴设备,包括智能眼镜、HUD眼镜等,并提供了设备的定价和一些功能特点。
文章提到了DeepSeek在低训练成本下实现AI突破性进展的情况,同时也探讨了美国对中国AI发展的限制以及中美AI竞争的情况。
生成式AI
一、 麦肯锡们噩梦,OpenAI 「深度研究」10分钟搞定百万方案
1. OpenAI的Deep Research将传统咨询数日工时压缩至几十分钟,输出质量接近专业分析师水准;
2. 工具展现跨领域专业能力,在医疗决策、金融风险、技术趋势等领域提供深度分析与建议;
3. 每月200美元订阅费可获100次查询,显著降低咨询成本,使知识服务更容易触达中小企业。
https://mp.weixin.qq.com/s/RjvRMw272lef1beLdwQQqw
二、 多个开源版Deep Research正在疯狂来袭?一月少花1400
1. 多个开源复现版本,包括Open Deep Research、OpenDeepResearcher和node-DeepResearch,均实现类似功能;
2. Open Deep Research使用Firecrawl爬虫和推理模型,支持切换不同底座模型,无需OpenAI的微调版本;
3. OpenDeepResearcher只需提供主题就能自动搜索、提取重要信息并生成综合报告;
4. node-DeepResearch通过搜索、读取、推理循环结构,使用谷歌gemini-flash和jina reader工具实现Deep Research功能。
https://mp.weixin.qq.com/s/bf_3PmC2-ptzEBadBa6XFQ
三、 对标DeepSeek V3!Ai2再祭开源杀器Tülu 3打破性能瓶颈
1. Ai2发布基于强化学习的Tülu 3 405B模型,多项基准测试表现可对标DeepSeek v3、GPT-4o;
2. 采用四阶段训练配方:精选提示词、监督微调、偏好微调,以及独创的可验证奖励强化学习(RLVR);
3. 完全开源训练数据、代码、评估方法和开发配方,在405B参数规模下强化学习带来显著性能提升。
https://mp.weixin.qq.com/s/hX2pNUupJ5yJ-eqe3qyP-Q
四、 突发!人形机器人明星公司Figure宣布与OpenAI分手
1. Figure宣布终止与OpenAI合作,称OpenAI通用大模型不适合具身智能需求,需要端到端垂直整合AI系统;
2. OpenAI近期重组机器人团队并申请相关商标,多点下注策略引发竞争关系,促使Figure寻求独立;
3. Figure声称已在端到端AI技术取得重大突破,26亿美元估值和15亿美元融资支持其加速自主研发。
https://mp.weixin.qq.com/s/-qlYsYJO_iA5pPRyKvyOPA
五、 AI编程L1-L5分级,GitHub Copilot仅L1,Devin是L4
1. AI编程分为5个等级:L1代码补全(如Github Copilot)、L2任务自动化(如ChatGPT)、L3项目自动化(如Sweep)、L4 AI软件工程师(如Devin)、L5 AI开发团队;
2. L4工具实现从产品需求到生产部署的完全自动化,让非技术人员能快速创建软件产品;
3. 开发者可根据需求组合使用不同级别工具,简单任务用L1,复杂任务用更高级别工具。
https://mp.weixin.qq.com/s/j5wFTPUxh-8pOZAHq8EMeg
六、 字节OmniHuman,一张图配上音频,就能直接生成视频
1. 字节OmniHuman能用单个模型支持任意尺寸和人物占比的图片,配合音频生成高自然度的人物视频,包括演讲、唱歌等动作;
2. 采用Omni-Conditions Training混合多模态训练策略,逐步加入文本、图像、音频和姿态等模态,扩大可训练数据规模;
3. 技术已落地即梦AI,对比现有方案能更好改善手势生成,支持动漫和3D卡通等多样性输入。
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w
七、 Meta内部邮件曝光:今年或将发布6款AI智能穿戴设备
1. Meta计划今年推出六款以上AI驱动的可穿戴设备,包括Oakley智能眼镜、HUD平视显示眼镜、神经腕带等;
2. HUD眼镜定价约1000美元,配备波导显示器显示通知和AI助手文本,可能集成EMG神经腕带;
3. Meta正重启智能手表项目,并开发内置摄像头的Camera Buds耳机,但在早期开发阶段。
https://mp.weixin.qq.com/s/ibQzP0ZFtevbdpLKmSJqxw
八、 国家超算互联网表态,上线 DeepSeek多模型供全民使用
1. 国家超算互联网正式接入DeepSeek,提供基于Qwen的7B、14B和32B三个蒸馏模型;
2. 超算互联网可以通过连接各地超算中心、组建生态系统、智能调度,实现全国算力资源统一调配;
3. 平台将分散的计算力资源整合共享,突破算力上限,让民众也能便捷获取AI算力服务。
https://mp.weixin.qq.com/s/6ZIIKFgiM11c-QLecYsx5Q