专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【[812星]SkyReels-V1:开源的 ... ·  昨天  
量子位  ·  百度搜索×DeepSeek!官宣接入仅24小 ... ·  2 天前  
新智元  ·  马斯克20万块GPU炼出Grok-3,暴击D ... ·  2 天前  
黄建同学  ·  马斯克发布的Grok-3,各种评测上都很强。 ... ·  2 天前  
数据法盟  ·  多地政务系统接入DeepSeek!“AI公务 ... ·  2 天前  
数据法盟  ·  多地政务系统接入DeepSeek!“AI公务 ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

可以这里测试OmniParser v2:网页链接。我随便给了张截-20250217230654

黄建同学  · 微博  · AI  · 2025-02-17 23:06

正文

2025-02-17 23:06

可以这里测试OmniParser v2: 网页链接 。我随便给了张截图,确实很强(戳图) 查看图片 // @黄建同学 :主体还是omniparser,不分平台// @ezkrgo :完蛋 没windows电脑
微软发布了OmniParser v2.0,一个全面升级的界面解析工具,旨在将UI截图转换为结构化格式,以优化基于LLM的UI代理体验。(V1看这里: 网页链接

同时推出OmniTool(演示视频戳↓):使用 OmniParser + 三方视觉模型控制 Windows 11 VM。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek ( #deepseek# R1) 、Qwen (2.5VL) 或 Anthropic Computer Use。

1️⃣ 模型简介:OmniParser不仅包括了一个经过精细调整的YOLOv8模型,还有一个针对上述数据集微调的Florence-2基础模型。这些数据集包括一个可交互图标检测数据集和一个图标描述数据集,前者自动标注了可点击和可操作区域,后者则将每个UI元素与其相应功能关联起来。

2️⃣ V2版本亮点:在V2版本中,引入了一个更大更清晰的图标字幕+定位数据集,平均延迟时间相比V1版提高了60%,在A100上的平均延迟为0.6秒/帧,在单个4090上为0.8秒。此外,平均精确度在ScreenSpot Pro上达到了39.6。






请到「今天看啥」查看全文