可以这里测试OmniParser v2：网页链接。我随便给了张截-20250217230654_黄建同学的专栏文章_微信文章

可以这里测试OmniParser v2：网页链接。我随便给了张截-20250217230654

黄建同学 · 微博 · AI · 2025-02-17 23:06

正文

2025-02-17 23:06
本条微博链接

可以这里测试OmniParser v2：

网页链接。我随便给了张截图，确实很强（戳图）

查看图片 // @黄建同学 :主体还是omniparser，不分平台// @ezkrgo :完蛋没windows电脑

微软发布了OmniParser v2.0，一个全面升级的界面解析工具，旨在将UI截图转换为结构化格式，以优化基于LLM的UI代理体验。（V1看这里：

网页链接）

同时推出OmniTool（演示视频戳↓）：使用 OmniParser + 三方视觉模型控制 Windows 11 VM。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek ( #deepseek# R1) 、Qwen (2.5VL) 或 Anthropic Computer Use。

1️⃣ 模型简介：OmniParser不仅包括了一个经过精细调整的YOLOv8模型，还有一个针对上述数据集微调的Florence-2基础模型。这些数据集包括一个可交互图标检测数据集和一个图标描述数据集，前者自动标注了可点击和可操作区域，后者则将每个UI元素与其相应功能关联起来。

2️⃣ V2版本亮点：在V2版本中，引入了一个更大更清晰的图标字幕+定位数据集，平均延迟时间相比V1版提高了60%，在A100上的平均延迟为0.6秒/帧，在单个4090上为0.8秒。此外，平均精确度在ScreenSpot Pro上达到了39.6。

可以这里测试OmniParser v2：网页链接。我随便给了张截-20250217230654

正文

请到「今天看啥」查看全文