告别繁琐操作，Skyvern用LLM和CV自动化浏览器工作流

顶层架构领域 · 公众号 · · 2024-11-08 08:30

正文

点击上方蓝色 “ 顶层架构领域 ”，关注精彩与你分享

Skyvern是一款基于大型语言模型（LLM）和计算机视觉（CV）技术的开源工具，旨在自动化基于浏览器的工作流程。它通过提供一个简单的API端点，能够完全自动化大量网站上的手动工作流程，从而取代脆弱或不可靠的自动化解决方案。Skyvern的核心优势在于其结合了LLM和CV技术，这意味着它不仅能够理解网页上的文字信息，还能识别和处理视觉元素，使得在执行任务时更加精确，能够有效地应对那些传统自动化工具难以处理的复杂场景。

一、Skyvern的工作原理

Skyvern的工作原理结合了LLM和CV技术，使其能够在浏览器环境中执行复杂的任务。具体来说，它通过以下步骤实现自动化：

绘制边界框：Skyvern首先在目标网站的页面上绘制各个可交互元素的边界框。

解析HTML并提取图像：接着，Skyvern解析页面的HTML代码，并从中提取包含网页内容的图像。

提取可交互元素：然后，Skyvern从图像中识别并提取所有可交互的元素，如按钮、输入框等。

调用LLM规划动作：Skyvern调用大语言模型（LLM），询问下一步应该采取的动作。例如，当遇到问题“你的姓名是什么？”时，LLM会回答需要填写姓名，并点击“下一步”按钮。

执行动作：Skyvern根据LLM的指示执行具体动作，例如填写表单并点击按钮。

重复步骤：Skyvern重复上述步骤，继续解析新页面，识别可交互元素，并调用LLM规划和执行动作，直到完成整个工作流程。

二、Skyvern的优势

Skyvern的设计使其具有以下优势：

无需定制代码：Skyvern可以在从未见过的网站上运行，因为它能够将视觉元素映射到完成工作流程所需的操作，而无需任何定制代码。

抗布局变化能力：Skyvern对网站布局的更改具有抵抗力，因为在尝试导航时，系统没有预先确定的XPaths或其他选择器。

复杂情境处理能力

告别繁琐操作，Skyvern用LLM和CV自动化浏览器工作流

正文

一、Skyvern的工作原理

二、Skyvern的优势

请到「今天看啥」查看全文