微软也要搞 Computer use 帮 Open AI 狙击 Anthropic?#ai#
他们开源了一个纯视觉基础 UI 解析 Agents OmniParser。
能够提高视觉语言模型在用户界面上执行任务的能力,通过准确识别交互式图标并理解屏幕截图中各元素的语义。
想做类似 Computer use 功能的朋友可以参考一下。
项目地址:microsoft.github.io/OmniParser/
他们开源了一个纯视觉基础 UI 解析 Agents OmniParser。
能够提高视觉语言模型在用户界面上执行任务的能力,通过准确识别交互式图标并理解屏幕截图中各元素的语义。
想做类似 Computer use 功能的朋友可以参考一下。
项目地址:microsoft.github.io/OmniParser/