AI创投周报｜DeepMind发布通用型AI智能体，AI程序员能力超GPT-4

阿尔法公社 · 公众号 · · 2024-03-15 18:15

正文

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者（Alpha Founders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

本图由“千象”（网址：www.hidreamai.com）生成

本周，我们观察到以下AI领域的新动向和新趋势：

1. OpenAI和初创公司Figure合作推出人形机器人Figure 01， 在新的演示视频中它能通过预训练模型理解其周围环境，使用常识推理做出决策，并将模棱两可的请求转化为具体行动。

2. 全球首个AI程序员 Devin亮相， 它由 Cognition公司研发，在模拟真实工作场景编程的测试SWE-bench上表现远超GPT-4等先进模型。 Cog n ition由华人团队创办，团队成员共拥有10块IOI金牌。

3. DeepMind发布通用型AI智能体SIMA， 这项研究为AI 智能体完成需要高级战略规划和多个子任务才能处理的复杂任务打下基础。

如果您对人工智能的新浪潮有兴趣，有见解，有创业意愿，欢迎扫码添加“阿尔法小助理”，备注您的“姓名+职位”，与我们深度连接。

人工智能产品和技术的新突破

1.能说会看会行动，OpenAI大模型上身人形机器人

OpenAI和机器人初创公司Figure合作推出的机器人Figure 01展现了惊人的能力，这款机器人能够理解周围环境，如识别桌子上的物品并在收到指令时递送苹果，展示了其对日常环境的理解和交互能力，重要的是，所有演示都是机器人原速执行，无人操控。

Figure 01通过将摄像头图像和语音文本转录输入到OpenAI的多模态大模型中，实现了高级规划和执行具体命令的能力。此外，Figure 01还能通过预训练模型理解其周围环境，使用常识推理做出决策，并将模棱两可的请求转化为具体行动。

此次开发不仅加速了人形机器人技术的进步，也为机器人在更多实际应用场景中的部署提供了可能，如在危险或人力资源紧缺的工作环境中代替人类执行任务。随着技术的持续发展和优化，期待未来这种人形机器人能够更加深入地融入人类生活中，成为助手和伙伴。

2.拥有10块IOI金牌的华人团队打造，全球首个AI程序员诞生

由Cognition公司研发的AI程序员Devin发布，它是全球首位AI软件工程师。它具备了全栈技能，并能自主学习、端到端构建和部署应用程序，自行发现并修复bug，甚至能训练和微调自己的AI模型。

Devin的能力在模拟真实工作场景编程的测试SWE-bench上得到了验证，其表现超越当前的顶尖AI模型，如Claude 2、Llama和GPT-4。

Devin的背后是由10人组成的华人团队，团队成员拥有10个IOI金牌的辉煌成绩，由Scott Wu和Neal Wu兄弟领衔。这个初创团队的目标是打造能够自动完成编码任务的AI，而Devin正是他们向这一目标迈出的重要一步。

3.改变游戏规则，Midjourney能让角色保持一致了

Midjourney最新推出的角色参照功能，这一更新使得用户可以通过特定的命令，在生成图像时让角色的面部、发型和着装保持一致，甚至可以在不同的风格中转换而不改变角色本身的特征，包括动漫风、写实风等多种风格。

用户们对这一功能的测试反应积极，通过多次实测，网友们展示了使用新功能后，无论是保持角色特征的一致性，还是在不同风格之间转换时的效果，都表现出色。这一功能不止能让用户创造自己的风格IP，还可能被用在电商领域。

4.最快最大的芯片面世，4万亿个晶体管，单机可训练比GPT-4大10倍的模型

芯片创业公司Cerebras最近发布一款拥有4万亿个晶体管的芯片—WSE-3，据称是最大最快的AI芯片，它使用5纳米工艺制造，拥有90万个AI优化的计算核心，能提供每秒125 petaflops的峰值AI性能。

配备WSE-3的Cerebras CS-3人工智能超级计算机理论上可以处理24万亿个参数的大型语言模型，这比目前最大的AI模型GPT-4的参数量高出一个数量级，这种超级计算机能简化AI模型训练工作流程，提高开发人员的工作效率。

此外，Cerebras的最新软件框架为PyTorch 2.0和最新的AI模型技术提供原生支持，使得CS-3成为目前唯一能为动态和非结构化稀疏性提供本机硬件加速的平台，极大地提高了训练速度。

5.苹果多模态大模型MM1发布：300亿参数、MoE架构

苹果公司近期正式公布了其在多模态大模型领域的研究成果—MM1模型。MM1是一个300亿参数的多模态大语言模型，采用了密集模型和混合专家（MoE）架构。

MM1模型的开发涉及了架构、数据、和训练程序等多个方面的决策。研究者进行了一系列消融实验，分析了模型架构决策和预训练数据选择对模型性能的影响，发现图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据是建模设计中的关键因素。

MM1模型在预训练指标中实现了最先进的性能，在多个多模态基准上经过监督微调后，也展现出了竞争力极强的性能。特别是在少样本设置下的字幕和问答任务上，以及在一系列监督微调后的多模态基准上，MM1模型均表现优异。

6.OpenAI官宣开源Transformer Debugger，不用写代码，人人可以破解LLM黑箱

OpenAI最近开源一款名为Transformer Debugger的工具，这款工具允许研究人员无需编写代码即可深入探索和分析Transformer模型的内部机制。

TDB整合了稀疏自动编码器和自动可解释性技术（利用大模型自动解释小模型）。该工具的推出意味着研究人员可以通过直观的界面查询模型输出、跟踪重要激活并分析上游激活，从而回答关于模型行为的具体问题。

OpenAI通过GPT-4展示了如何解析GPT-2的神经元活动，标志着向理解复杂模型行为迈出的一大步。Transformer Debugger的推出进一步降低了技术门槛，使得更多研究人员能够参与到模型分析中。TDB通过简化的用户界面提供对模型内部结构的深入分析，例如分析模型为何偏好特定的输出或注意力头为何关注特定的token。

Transformer Debugger的开发源于OpenAI对于解密神经网络和Transformer“黑箱”的持续探索，旨在确保人类可以安全地与AI共存。通过开源Transformer Debugger，OpenAI希望吸引更广泛的社区参与改进和利用这一工具，共同推动AI技术的健康发展。

7.智能体的ChatGPT时刻！DeepMind通用AI智能体向人类玩家进化，开始理解游戏

谷歌DeepMind推出能在3D虚拟环境中操作的通用AI智能体 SIMA（Scalable Instructable Multiworld Agent），这标志着AI智能体在游戏理解和执行方面迈出了重要一步。

AI创投周报｜DeepMind发布通用型AI智能体，AI程序员能力超GPT-4

正文

请到「今天看啥」查看全文