ScreenAI 是由 Google AI 开发的视觉语言模型 (VLM),可以理解用户界面 (UI) 和信息图表。
它很强大 — — 能够执行图形问答、元素注释、总结、屏幕导航和特定于 UI 的 QA 等任务。#chatgpt##ai探索计划#
Blog:research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
工作原理:就像一个超强的 UI 解释器
ScreenAI 采用两个阶段:
- 预训练:应用自监督学习自动生成数据标签
- 微调:使用人工评估者手动标记的数据
使用例子:
1. 问答,可以回答有关屏幕截图内容的问题
2. 屏幕导航,将自然语言表达转换为屏幕上可执行的操作。例如,“单击搜索按钮。”
3. 屏幕摘要,用一两句话概括屏幕内容
ChatGPT 黄建同学的微博视频
它很强大 — — 能够执行图形问答、元素注释、总结、屏幕导航和特定于 UI 的 QA 等任务。#chatgpt##ai探索计划#
Blog:research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/
工作原理:就像一个超强的 UI 解释器
ScreenAI 采用两个阶段:
- 预训练:应用自监督学习自动生成数据标签
- 微调:使用人工评估者手动标记的数据
使用例子:
1. 问答,可以回答有关屏幕截图内容的问题
2. 屏幕导航,将自然语言表达转换为屏幕上可执行的操作。例如,“单击搜索按钮。”
3. 屏幕摘要,用一两句话概括屏幕内容
ChatGPT 黄建同学的微博视频