拍照查卡路里APP - 智能体

CloudMan · 公众号 · · 2025-03-12 05:59

正文

前面我们用百度“图像内容理解”实现了APP的卡路里查询功能，但不太完美，目前有两个限制：

解决办法也很简单， 换更好的大模型

我们可以到一些平台上测试不同大模型，比如 coze.cn, 阿里百炼等。

这里以coze.cn为例，登录进去可以创建一个智能体。

智能体也叫AI Agent，OpenAI中叫GPTs, 可以简单理解为用大模型实现的小工具，比如专门做旅游攻略的智能体，陪你练口语的智能体，心理辅导的智能体等。当然这里我们要实现的是拍照查卡路里的智能体。

这是智能体的主界面：

界面由提示词（左），功能组件（中）和预览调试（右）三部分组成。

先设置提示词：

这里就没有100个字的限制了，我们可以详细说明需求，确保大模型返回期望的数据。比如这里我们额外要求大模型返回图中食物的位置信息。此外，还可以点击“优化”按钮来让大模型自动整理提示词，以便更好地理解用户需求。

中间部分为智能体提供了丰富的功能。其中最重要的就是选择模型。

列表中有几十个模型可供选择，包含国内主流的大模型，这里我们选择了豆包专门做图像理解的视觉模型。

除了大模型，平台还提供了丰富的插件，自定义工作流，知识库等功能，用于扩展智能体的能力。

右边是预览调试部分，下面是测试结果，可以看到效果还是不错的。

这样，我们就验证了这个智能体能够满足拍照查卡路里的需求，同时也具备很强的扩展性。接下来就可以用它替换百度的模型了。

方法也很简单，平台提供了智能体的API。与调用百度的API类似，只需要简单的修改一下代码就能完成替换，这里我们就不演示了。

对于AI应用，切换后端大模型是非常方便的。

除了智能体，我们还能直接在coze上创建有UI界面的应用，这些应用可以直接发布到微信小程序和其他社交平台。

这种应用一大亮点是不需要编码。平台提供了各种常用UI组件，用户可以通过拖拽的方式设计APP界面。通过工作流，可以调用大模型或其他插件，实现丰富的AI功能。

CloudMan也在coze上创建了一个拍照查卡路里的APP。下面给大家演示一下效果并解释其核心逻辑。

拍照查卡路里的教程到此就结束了，下面回顾一下要点。

AI应用的能力主要取决于大模型的能力。大模型的飞速发展使得我们有能力实现前所未有的功能。即便有些功能现在无法实现，我们也可以乐观地期待大模型进步。替换后台模型非常简单。
AI辅助编程非常强大。流程简单、直接：我们提需求，AI负责实现；我们提改进意见，AI负责优化；我们指出bug，AI负责修复。
开发门槛大大降低，编码已不再是障碍。AI帮我完成了80%的具体编码工作。
好的点子和洞察用户需求将更为重要。
智能体（AI Agent）很可能会成为主流。通过工作流，多个Agent能协调工作，完成复杂的任务。

最近谷歌新出了一套多智能体的AI系统，叫AI co-scientist，AI协同科学家。它就像一个研究合作者，可以帮助人类科学家生成新颖的假设和研究提案，并加速科学和生物医学的发展。

它由一组Agent组合而成，分别负责生成、反思、排名、进化、接近和元评审。

简单说，就是这个系统里有很多“智能小人”，每个小人负责自己的任务。比如负责“生成”的智能体，它的任务就是从科学家的初始想法出发，通过搜索和研究等方式，提出更多的想法。智能小人们分工协作，推动整个研究向前发展。

不知道这段时间大家有没有被Manus刷屏。我感觉这才是智能体该有的样子。

我们给它一个指令，比如调研某家上市公司，它会自己规划完成任务的步骤，自己创建工作流，然后自己执行。需要收集数据，智能体会自己用浏览器上网爬数据；需要统计分析，智能体会调用工具甚至自己写程序搞定；需要出报告，智能体会自己生成图表，PDF。

真正的智能体要能够自主规划并自动调用各种工具完成任务。不管最终Manus能否成功，它确实走在了正确的路上。

AI已来，时不我待啊，朋友们

【关于下一个案例】已经定下来了，但技术调研中遇到点问题，比我预想的要复杂。还需要些时间，敬请期待......