AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha
Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。
本图片由“千象”(网址:
www.hidreamai.com)生成
1.马斯克旗下xAI公司发布Grok-3模型
,这一模型是全球首个在20万块GPU上训练的AI模型,在数学、科学和编码任务中刷新了SOTA纪录;此外,xAI还发布了首个AI智能体“DeepSearch”,能够在互联网上进行深入搜索,提供更透明和可控的信息检索服务。
2.微软发布新型量子芯片Majorana
1
,这是全球首款基于拓扑量子比特架构的量子处理器,能够观察和控制马约拉纳粒子,从而实现更稳定、更可靠的量子比特。这款芯片仅手掌大小,其设计目标是在单个芯片上集成多达一百万个量子比特。
3.机器人初创公司Field AI估值飙升至20亿美元
,Field AI的核心产品是自主研发的多模态具身大模型—Field Foundation Models。这一模型能够整合文本、图像、语音和激光雷达传感器数据,显著提升机器人的自主性和任务执行能力。
如果您考虑在人工智能创业,谋取第一笔投资,欢迎请您的朋友推荐接洽我们。您也可以扫
码添加
“阿尔法小助理”
,备注您的
“
姓名+职位”
,与我们建立一度人脉关系。
人工智能产品和技术的新突破
1.xAI发布Grok-3系列模型,用20万块GPU训练,刷新SOTA
马斯克旗下xAI
公司
发布Grok-3模型,这一模型是全球首个在20万块GPU上训练的AI模型,在数学、科学和编码任务中刷新了SOTA纪录,成为首个Elo评分突破1400分并在所有分类测试中排名第一的模型。
模型分为Grok-3模型和Grok 3 Reasoning两个系列。在“Think”模式下,可以调用Grok 3 Reasoning模型,提供更强大的计算能力,用于复杂任务的处理。此外,xAI还发布了首个AI智能体“DeepSearch”,能够在互联网上进行深入搜索,提供更透明和可控的信息检索服务。
在实际应用中,Grok-3展示了其在生成复杂代码和设计游戏方面的强大能力。例如,它成功生成了一个结合俄罗斯方块和宝石迷阵的游戏混合体,还完成了复杂的太空飞船发射和返回任务的代码编写。
2.旨在加速科学发现,谷歌推出基于Gemini 2.0构建的多智能体AI系统AI co-scientist
谷歌推出名为“AI co-scientist”的多智能体AI系统,旨在通过高级推理和测试时间计算加速科学发现。
AI co-scientist协助科学家生成新颖的研究假设、设计实验方案,从而加速科学发现。AI co-scientist的运作过程涉及生成、反思、排名、进化、邻近性和元审查等多个智能体的协同工作,通过自动化反馈不断迭代优化,最终输出高质量研究方案。
此外,谷歌还对该系统进行了端到端的实验室实验,验证了它在药物再利用、新治疗靶点提出和抗菌耐药性机制研究中的实际潜力。
3.量子计算重大突破,微软发布新型量子芯片Majorana 1
微软发布Majorana 1新型量子芯片,这是全球首款基于拓扑量子比特架构的量子处理器,能够观察和控制马约拉纳粒子,从而实现更稳定、更可靠的量子比特。
Majorana 1的核心是拓扑量子比特,其采用了一种全新的物质状态—拓扑超导体。该材料是由砷化铟和铝组成的材料堆栈,能够在接近绝对零度的低温下形成拓扑超导纳米线,其末端的马约拉纳零模式可作为量子比特的构建块。
与传统量子比特相比,这种量子比特通过“奇偶性”存储量子信息,能够有效抵御外部干扰,显著降低量子信息的丢失概率,具有更快的速度、更小的体积和更高的稳定性,且可通过数字控制,无需复杂的模拟信号。微软预计,基于Majorana 1的量子计算机将在未来几年内实现工业级问题的解决能力。
4.Anthropic曝光“混合模型”Claude 4,并计划在未来几周内发布
Anthropic近期曝光了其秘密研发的“混合模型”——Claude 4。它的核心创新在于其“混合”特性,既能像传统大语言模型一样快速处理简单任务,又能利用更多计算资源解决复杂问题。开发者可以通过滑动条调整模型在查询时使用的算力,控制推理的深度和成本。
Anthropic的混合模型在编程任务上表现出色,尤其擅长处理企业工程师可能遇到的实际编程任务,如理解复杂代码库和生成完整代码行。在完整的 SWE-Lancer数据集上,Claude 4在IC SWE和SWE Manager任务上的表现均优于OpenAI的o3-mini high模型。
Anthropic目前正寻求以580亿美元的估值融资20亿美元,据The Information报道,Anthropic预计在2027年实现高达345亿美元的收入,其中API收入将达到200亿美元,是OpenAI同期预测的3倍。
5.DeepSeek发布新型稀疏注意力机制NSA,显著提升长文本处理的效率,同时降低预训练成本
DeepSeek团队近日发布了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,其核心创新点包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择等技术,旨在通过硬件对齐优化和端到端训练支持,显著提升长文本处理的效率,同时降低预训练成本。
NSA机制通过动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择三种策略,优化了传统注意力机制的计算效率。
实验表明,在处理64k上下文时,传统基于softmax架构的注意力计算占总延迟的70%-80%。而NSA机制在前向传播、反向传播和解码速度上均实现了显著加速:前向传播速度最高可提升9倍,反向传播速度最高提升6倍,解码速度提升可达11.6倍。此外,NSA在多个基准测试中表现优异,特别是在长上下文推理任务中,其性能超过了全注意力模型和其他基线模型。
论文:https://arxiv.org/abs/2502.11089
6.何恺明团队提出去噪扩散模型,为生成模型的发展开辟新方向
何恺明团队的最新研究挑战了去噪扩散模型的传统认知,提出在某些情况下,噪声条件并非必要,去除噪声条件不仅不会影响模型性能,反而可能提升其表现。这一发现挑战了学界长期以来的共识,可能为生成模型的发展开辟新方向。
去噪扩散模型(DDPM)是一种强大的生成模型,通过逐步去除噪声来生成数据。传统上,这类模型依赖于噪声条件来指导去噪过程。然而,何恺明团队受图像盲去噪技术的启发,研究了在无噪声条件下的模型表现。研究团队构建了一个统一的数学框架,对多种去噪生成模型(如iDDPM、DDIM、EDM等)进行了理论分析和实验验证,探讨模型在无噪声条件下的行为。
研究团队发现,大多数模型在无噪声条件下表现良好,甚至优于有噪声条件的情况。例如,在CIFAR-10数据集上,无噪声条件的uEDM变体实现了2.23的FID得分,接近噪声条件模型的最佳表现(EDM的FID为1.97)。研究还提出了一个误差边界公式,用于量化无噪声条件下的模型性能。实验表明,这一误差边界与模型的实际表现高度相关,尤其是在模型出现灾难性失败时,误差边界会显著升高。
论文:https://arxiv.org/pdf/2502.13129
7.人大高瓴与蚂蚁集团联合提出LLaDA,旨在通过扩散模型替代传统的自回归模型
近日,人大高瓴人工智能学院与蚂蚁集团联合提出了一种新的大语言模型——LLaDA(Large Language Diffusion with Masking),旨在通过扩散模型替代传统的自回归模型,以解决大模型在双向依赖关系和逻辑推理上的局限性。LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,并在反转诗歌任务中超越了GPT-4o,展现出强大的双向推理能力。
传统的自回归语言模型通过逐个预测下一个token来生成文本,这种方法在处理逆向推理任务时表现不佳,且计算成本高昂。为了克服这些局限性,LLaDA采用扩散模型架构,能够同时捕捉文本的正向和反向依赖关系,从而更好地处理复杂的语言任务。
LLaDA的核心在于正向掩码和反向预测机制。模型通过随机掩码部分输入序列的token,然后学习根据未被掩码的部分预测被掩码的token。这种机制允许模型同时看到输入序列中的所有token,从而更好地捕捉双向依赖关系。与自回归模型不同,LLaDA的Transformer架构不使用因果掩码,能够同时处理正向和反向任务。
LLaDA在多个任务中表现出色:在上下文学习方面,LLaDA-8B在15个零样本/少样本学习任务中超越了LLaMA2-7B,并与LLaMA3-8B表现相当;在反转推理方面,LLaDA在反转诗歌任务中的表现优于GPT-4o,有效解决了自回归模型在逆向推理中的“反转诅咒”问题;在指令遵循方面,LLaDA经过监督微调(SFT)后,在多轮对话等任务中展现出更强的指令遵循能力。