专栏名称: 阿尔法公社
重度帮助创业者的天使投资基金
目录
相关文章推荐
程序员小灰  ·  跌爆了。。。 ·  3 天前  
程序员小灰  ·  真心建议大家冲一冲新兴领域,工资高前景好 ·  4 天前  
程序员的那些事  ·  湖南大学的 DeepSeek ... ·  3 天前  
程序员的那些事  ·  突发!4 个程序员被抓,维护赌博网站每月赚 ... ·  3 天前  
程序猿  ·  DeepSeek创始人梁文锋实习往事:月薪1 ... ·  3 天前  
51好读  ›  专栏  ›  阿尔法公社

AI创投周报|强化学习之父获2024年图灵奖,Reflection AI获1.3亿美元融资

阿尔法公社  · 公众号  ·  · 2025-03-08 14:47

正文

图片


AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。


图片 本图片由“千象”(网址:www.hidreamai.com)生成


本周,我们观察到以下AI领域的新动向和新趋势:


1.图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto, 两人自1980年代起合作,共同构建了强化学习的数学基础,他们的合著《Reinforcement Learning: An Introduction》至今仍是该领域的经典教材。

2 . 由DeepMind资深研究员Ioannis Antonoglou和Gemini强化学习核心负责人Misha Laskin联合创立的Reflection AI,近日获得1.3亿美元融资 估值达5.55亿美元。此次融资由Sequoia Capital、Lightspeed和CRV等知名投资机构领投。


3.monica.im推出AI Agent产品Manus , Manus的核心亮点在于其强大的任务执行能力和多代理架构。它能够处理诸如旅行规划、股票分析、教育内容创建、保险政策比较等复杂任务,并通过调用工具、编写代码、浏览网页等方式直接交付结果。


图片
如果您考虑在人工智能创业,谋取第一笔投资,欢迎请您的朋友推荐接洽我们。您也可以扫 码添加 “阿尔法小助理” ,备注您的 姓名+职位” ,与我们建立一度人脉关系。


图片

人工智能产品和技术的新突破


1.图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

2024年图灵奖授予了强化学习领域的两位奠基者——Andrew Barto和Richard Sutton。Andrew Barto是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授,而Richard Sutton则是阿尔伯塔大学计算机科学教授,被誉为“强化学习之父”。


两人自1980年代起合作,共同构建了强化学习的数学基础,并开发了多个重要算法。他们的合著《Reinforcement Learning: An Introduction》至今仍是该领域的经典教材。

强化学习是一种通过奖励信号学习最优行为的机器学习方法,其核心思想源于心理学和神经科学。Barto和Sutton在1980年代初将强化学习构建为一个通用问题框架,并借鉴马尔可夫决策过程(MDP)的数学基础,提出了强化学习中的关键算法。他们的工作为深度强化学习的发展奠定了基础,推动了AlphaGo、ChatGPT等重大AI突破。

强化学习不仅在围棋、聊天机器人等领域取得显著成果,还广泛应用于机器人运动技能学习、网络拥堵控制、芯片设计等多个领域。此外,强化学习的研究还反过来助力了神经科学的发展,为理解人类大脑中的多巴胺系统提供了新视角。


2.阿里开源全新推理模型QwQ-32B,部分性能比肩DeepSeek-R1满血版


阿里云发布并开源了全新推理模型QwQ-32B,该模型由阿里巴巴通义实验室开发,参数量为320亿,在数学和编程任务上足以比肩6710亿参数的DeepSeek-R1满血版。QwQ-32B采用了强化学习技术,基于Qwen2.5-32B模型进行优化,该模型已在Hugging Face和ModelScope平台开源,并支持通过Qwen Chat进行体验。

QwQ-32B的亮点在于其通过大规模强化学习显著提升了推理能力,尤其是在数学和编程任务上。在一系列基准测试中,QwQ-32B在LiveBench、IFEval和BFCL等任务上甚至略微超过了DeepSeek-R1-671B。

QwQ-32B还集成了与智能体相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程未来,阿里计划进一步探索将智能体与RL集成,以实现长时推理,目标是通过推理时间扩展来释放更高的智能。

3.monica.im推出AI Agent产品Manus


由monica.im研发的AI代理产品“Manus”正式推出,Manus的独特之处在于它不仅是一个AI助手,更是一个能够自主执行复杂任务的AI代理,直接交付完整成果,而非仅仅提供建议或答案。


Manus的核心亮点在于其强大的任务执行能力和多代理架构。它能够处理诸如旅行规划、股票分析、教育内容创建、保险政策比较等复杂任务,并通过调用工具、编写代码、浏览网页等方式直接交付结果。

例如,Manus可以自动解压缩简历文件,筛选并排名候选人,甚至根据用户偏好生成Excel表格。在房产遴选案例中,它能够分解任务、搜索信息、计算预算,并生成详细报告,宛如专业房地产经纪人。此外,Manus还展示了其在股票分析、供应商匹配等领域的强大能力,通过多代理协作和自主学习,模拟人类工作方式,提升任务处理效率。

4.中科院自动化所新研究,透明物体也能被机器人抓起来了


地瓜机器人团队与中科院自动化所等单位合作,提出了一项名为MODEST的新研究,成功解决了机器人抓取透明物体的难题。该研究入选了全球机器人领域顶会ICRA 2025,展示了其在机器人感知和操作领域的突破性进展。

图片

MODEST是一个针对透明物体的单目深度估计和语义分割的多任务框架,仅需单张RGB图像即可实现透明物体的精准抓取。传统方法依赖特殊传感器或多视角图像,增加了成本和应用限制,而MODEST通过语义和几何结合的多任务框架,突破了这些限制。

该框架由编码、重组、语义几何融合和迭代解码四个模块组成,通过注意力机制和由粗到细的特征更新策略,显著提升了深度估计和语义分割的精度。实验表明,MODEST在仿真数据集Syn-TODD和真实数据集ClearPose上的表现优于其他双目和多视图方法,深度估计和语义分割的精度均大幅提升。此外,团队还将算法应用于真实机器人平台,验证了其在透明物体抓取中的鲁棒性和泛化性。MODEST的成功不仅降低了设备成本,还为智能工厂、实验室自动化和智慧家居等场景提供了高效、经济的透明物体感知方案。

5.上科大等机构推出空间具身通用操作模型,百万真实数据训练,预训练代码全开源

上海AI Lab、TeleAI、上科大等机构的研究团队近日发布名为SpatialVLA的创新研究成果,旨在解决机器人领域长期存在的通用操作策略难题。

该研究通过探索空间表征在视觉-语言-动作(VLA)模型中的应用,提出了一个能够适应不同机器人形态并执行复杂任务的通用操作模型。这一成果基于百万真实数据进行训练,为机器人3D物理环境交互提供了新的解决方案,而且预训练代码全开源。

SpatialVLA模型的核心在于其强大的3D空间感知能力。通过引入ego3d位置编码和自适应动作网格,模型能够有效处理单视角视差、光照变化和环境不一致等视觉外观变化,从而在现实世界中展现出更高的鲁棒性和通用性。具体而言,模型首先利用ego3d位置编码将3D空间上下文与语义特征融合,消除了对特定机器人相机校准的需求;随后,通过自适应动作网格将连续动作离散化,使得不同机器人之间的动作与物理世界的3D结构对齐。此外,模型在后训练中通过自适应网格重新离散化,展现了在新机器人环境中适应的卓越能力。

实验表明,SpatialVLA在zero-shot泛化控制、场景高效微调和空间理解等多项评估中均取得了最先进的性能,尤其在具有外观多样的机器人操作任务和环境条件下表现尤为突出。

6.LeCun世界模型再近一步,Meta研究证明:AI可无先验理解直觉物理


Meta的研究团队在Yann LeCun的指导下,取得了AI理解直观物理的重要突破。他们开发的自监督视频模型V-JEPA,无需任何先验知识,仅通过观察视频就能理解直观物理。研究团队通过自监督学习,使AI模型在抽象表示空间中进行预测,而不是生成像素级的精准预测,这种方式更接近人类大脑处理信息的模式。






请到「今天看啥」查看全文