专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

OpenAI居然开源了！不用代码就能构建复杂多Agents实时语音协作系统

AI算法与图像处理 · 公众号 · · 2025-01-22 23:05

正文

就在前几天，OpenAI 又双叒叕悄悄发布了一个开源项目 openai-realtime-agents，这玩意儿是基于 Realtime API 整出来的一个多 Agents 语音应用示例。有了它，只要 20 分钟，属于自己的多 Agents 语音应用，你也能带回家！

Github ：

https://github.com/openai/openai-realtime-agents

在一位大佬分享了其“状态机 Prompt”的概念后，平台上的网友已经在疯狂议论了。

有的赞叹不已 👏：

也有的表示不屑，自己早有过这样的尝试：

还有的则更看好低代码或全代码形式的 workflow 🤔：

也有执行力强的网友已经开始运行项目了 👍：

另有大佬表示，这次的项目预示着超级人工智能的产生，他还猜测 OpenAI 内部已经训练出了博士水平的模型，将与此项目非常契合：

看到网友们如此兴奋，鼠鼠我呀，也跃跃欲试想探个究竟了～

多 Agents 语音应用示例

在以前，我们知道，要制定一个 Agent、搭建多 Agents 应用、实现多 Agents 之间的交互， 往往需要复杂的编程知识和大量的开发工作 ，比如 MetaGPT、CrewAI、XAgent、微软的 AutoGen。你不仅要精通各种编程语言、开发环境搭建，还需要对 Agent 规则制定等方面有一定的了解。

而这个项目最大的亮点在于，它允许你 使用自然语言来制定 Agent 以及它们之间的交互规则，并且引入了低延时的 Realtime API 。所以也就有了上面官方的承诺， 20 分钟构建一个多 Agents 实时语音应用。

也就是说，即使你没有专业的编程技能，只要你能用 清晰的自然语言 描述出你想要的各个 Agents 具备的行为和功能，你就可以快速制作一个多 Agents 应用，或者是创建一个代理式工作流，一个工作流中的每个节点都有一个特定的 Agent 待命。

好家伙，有嘴就行？

话不多说，让我们先看一下官方提供的示例：

在这个简单场景里，一共有两个 Agent。

一个叫 greeter，可以理解为系统的接待员；

另一个叫 haiku，是一个专门写三行俳（pái）句诗（日本的一种古典短诗）的 Agent。

连接这个系统：

OpenAI居然开源了！不用代码就能构建复杂多Agents实时语音协作系统

正文

多 Agents 语音应用示例

请到「今天看啥」查看全文