专栏名称: 顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
目录
相关文章推荐
51好读  ›  专栏  ›  顶层架构领域

告别繁琐操作,Skyvern用LLM和CV自动化浏览器工作流

顶层架构领域  · 公众号  ·  · 2024-11-08 08:30

正文

点击上方 蓝色 顶层架构领域 ”,关注精彩与你分享

Skyvern是一款基于大型语言模型(LLM)和计算机视觉(CV)技术的开源工具,旨在自动化基于浏览器的工作流程。它通过提供一个简单的API端点,能够完全自动化大量网站上的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。Skyvern的核心优势在于其结合了LLM和CV技术,这意味着它不仅能够理解网页上的文字信息,还能识别和处理视觉元素,使得在执行任务时更加精确,能够有效地应对那些传统自动化工具难以处理的复杂场景。

一、Skyvern的工作原理

Skyvern的工作原理结合了LLM和CV技术,使其能够在浏览器环境中执行复杂的任务。具体来说,它通过以下步骤实现自动化:

绘制边界框 :Skyvern首先在目标网站的页面上绘制各个可交互元素的边界框。

解析HTML并提取图像 :接着,Skyvern解析页面的HTML代码,并从中提取包含网页内容的图像。

提取可交互元素 :然后,Skyvern从图像中识别并提取所有可交互的元素,如按钮、输入框等。

调用LLM规划动作 :Skyvern调用大语言模型(LLM),询问下一步应该采取的动作。例如,当遇到问题“你的姓名是什么?”时,LLM会回答需要填写姓名,并点击“下一步”按钮。

执行动作 :Skyvern根据LLM的指示执行具体动作,例如填写表单并点击按钮。

重复步骤 :Skyvern重复上述步骤,继续解析新页面,识别可交互元素,并调用LLM规划和执行动作,直到完成整个工作流程。

二、Skyvern的优势

Skyvern的设计使其具有以下优势:

无需定制代码 :Skyvern可以在从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何定制代码。

抗布局变化能力 :Skyvern对网站布局的更改具有抵抗力,因为在尝试导航时,系统没有预先确定的XPaths或其他选择器。

复杂情境处理能力







请到「今天看啥」查看全文