专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
英国那些事儿  ·  伦敦220万镑豪宅扩建地下室时突然倒塌!邻居 ... ·  6 天前  
51好读  ›  专栏  ›  黄建同学

ScreenAI 是由 Google AI 开发的视觉语言模型 -20240423185517

黄建同学  · 微博  ·  · 2024-04-23 18:55

正文

2024-04-23 18:55

ScreenAI 是由 Google AI 开发的视觉语言模型 (VLM),可以理解用户界面 (UI) 和信息图表。

它很强大 — — 能够执行图形问答、元素注释、总结、屏幕导航和特定于 UI 的 QA 等任务。#chatgpt##ai探索计划#

Blog:research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/

工作原理:就像一个超强的 UI 解释器

ScreenAI 采用两个阶段:
- 预训练:应用自监督学习自动生成数据标签
- 微调:使用人工评估者手动标记的数据

使用例子:
1. 问答,可以回答有关屏幕截图内容的问题
2. 屏幕导航,将自然语言表达转换为屏幕上可执行的操作。例如,“单击搜索按钮。”
3. 屏幕摘要,用一两句话概括屏幕内容

ChatGPT 黄建同学的微博视频