点击上方
蓝色
“
顶层架构领域
”,关注精彩与你分享
Skyvern是一款基于大型语言模型(LLM)和计算机视觉(CV)技术的开源工具,旨在自动化基于浏览器的工作流程。它通过提供一个简单的API端点,能够完全自动化大量网站上的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。Skyvern的核心优势在于其结合了LLM和CV技术,这意味着它不仅能够理解网页上的文字信息,还能识别和处理视觉元素,使得在执行任务时更加精确,能够有效地应对那些传统自动化工具难以处理的复杂场景。
一、Skyvern的工作原理
Skyvern的工作原理结合了LLM和CV技术,使其能够在浏览器环境中执行复杂的任务。具体来说,它通过以下步骤实现自动化:
绘制边界框
:Skyvern首先在目标网站的页面上绘制各个可交互元素的边界框。
解析HTML并提取图像
:接着,Skyvern解析页面的HTML代码,并从中提取包含网页内容的图像。
提取可交互元素
:然后,Skyvern从图像中识别并提取所有可交互的元素,如按钮、输入框等。
调用LLM规划动作
:Skyvern调用大语言模型(LLM),询问下一步应该采取的动作。例如,当遇到问题“你的姓名是什么?”时,LLM会回答需要填写姓名,并点击“下一步”按钮。
执行动作
:Skyvern根据LLM的指示执行具体动作,例如填写表单并点击按钮。
重复步骤
:Skyvern重复上述步骤,继续解析新页面,识别可交互元素,并调用LLM规划和执行动作,直到完成整个工作流程。
二、Skyvern的优势
Skyvern的设计使其具有以下优势:
无需定制代码
:Skyvern可以在从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何定制代码。
抗布局变化能力
:Skyvern对网站布局的更改具有抵抗力,因为在尝试导航时,系统没有预先确定的XPaths或其他选择器。
复杂情境处理能力