专栏名称: 天翼智库

天翼智库是中国电信研究院战略发展研究所承办的面向公众的智库研究信息发布平台，为您提供最新信息通信行业发展动态、政策观察、产业分析和战略洞察等。

【大模型周报第97期】微软开源基于大模型的屏幕解析工具OmniParser

天翼智库 · 公众号 · · 2024-11-13 07:00

正文

本期总览

【人工智能治理与行业政策】关键词：美国AI治理、评测基准、具身智能、应用指南

10月24日， 美国拜登总统发布首份关于人工智能的《国家安全备忘录》（NSM） 。NSM指示采取三项关键行动：一是确保美国引领世界安全、保障、可信的人工智能发展；二是利用尖端人工智能技术推进美国国家安全使命；三是推进围绕人工智能的国际共识和治理。

10月30日， OpenAI开源用于评估大型语言模型回答事实性问题的基准测试SimpleQA 。SimpleQA包含4326道由人类编写、清晰无歧义的事实性问题，每个问题只有一个正确答案，易于评分。SimpleQA能够评估模型的事实性回答能力和模型的“校准”程度。

10月28日， 国家地方共建人形机器人创新中心联合全国50多家行业内头部企业和机构，发布全国首批人形机器人具身智能标准 ，包含《人形机器人分类分级应用指南》、《具身智能智能化发展阶段分级指南》及具身智能语料数据方面首个倡议《共建具身智能语料数据生态》。

10月26日， 《北京市教育领域人工智能应用指南》正式发布 。《指南》明确以“智”助教、以“智”助学、以“智”助评、以“智”助育、以“智”助研、以“智”助管6大重点应用领域、29个典型场景，覆盖人工智能在学校教育中的所有关键应用层面。

【前沿技术进展】关键词：多模态大模型、端侧模型、屏幕解析

10月24日， OpenAI推出新型连续时间一致性模型sCM 。sCM只需两步采样，就能生成与扩散模型质量相当的图像，速度提升50倍。sCM将开启视频、图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段。

10月24日， Meta推出Llama 3.2的1B/3B模型的量化版（QLoRA及SpinQuant版） 。量化后模型大小平均减少56%，RAM（随机存取存储器，通常作为操作系统或正在运行中程序的临时数据存储介质）使用量平均减少41%，模型速度提高2至4倍，同时降低功耗，已在一加12、三星S24+/S22及苹果iOS设备（未公布具体型号）等移动平台进行测试。

10月24日， 微软开源基于大模型的屏幕解析工具OmniParser ，能够将用户界面（UI）的屏幕截图转换成结构化数据。该工具旨在提高基于大模型的UI代理系统的性能，通过准确识别可交互图标和理解截图元素的语义，增强代理执行任务的能力。

【产品应用创新】关键词： AI编程、AI工具、自动驾驶、智能机器人

10月25日， Anthropic为Claude AI推出一款JavaScript沙盒工具 ，允许用户利用Claude编写JavaScript代码、在沙盒环境中上传自己的代码并自动生成运行结果、系统性分析和可视化CSV文件中的数据，相应功能目前已作为预览版本向所有用户开放。

10月25日， 芯擎科技的国产7nm全场景高阶自动驾驶芯片“星辰一号”成功点亮 。该芯片将在2025年实现量产，2026年大规模上车应用。该芯片采用7nm车规工艺,符合AEC-Q100标准,采用多核异构架构，全面对标目前国际最先进的智驾产品，并在CPU性能、AI算力、ISP处理能力，以及NPU本地存储容量等关键指标上全面超越国际先进主流产品。

10月28日， 成都人形机器人创新中心发布人形机器人“贡嘎一号”（Konka-1） ，实现成都造人形机器人零的突破。目前该产品为国内唯一、全球唯三，真正拥有人形机器人“最强大脑”的超轻量级人形机器人整机产品，能实现像人一样独立思考、推理和执行复杂任务。

10月29日， 微软旗下的代码托管平台GitHub推出自然语言编程工具GitHub Spark 。用户只需要详细解释希望开发的应用功能，从托管到数据存储，就能借助GitHub Spark自动处理所有复杂的技术细节。

【产业市场竞合】关键词： 新闻授权、智算平台、AI芯片

10月25日， Meta宣布与路透社达成多年期有偿新闻授权协议 。根据协议，Meta旗下AI聊天机器人在回答用户有关时事新闻的提问时，可直接引用路透社的报道资源，并提供相关链接。

10月24日， 国产超大规模智算平台“飞星二号”正式启动 ，由科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造。去年10月，首个国产万卡算力集群“飞星一号”平台上线，上线后一年解决超500次基础软硬件问题和模型适配问题。“飞星二号”将带来新模型新算法的持续适配和智算集群规模的再次跃迁。

10月30日， OpenAI据称正联手博通和台积电打造自研AI芯片 ，首款定制芯片预计于2026年推出，时间或有变动。同时OpenAI将在英伟达芯片的基础上增添AMD芯片，以应对急剧扩张的基础设施需求。

趋势洞察

1. 大模型终端使用能力实现突破，AI在办公自动化领域应用将加速

近日，Claude 3.5 Sonnet、Ferret-UI 2、OmniParser等多款模型、工具发布，大模型终端使用能力迎来持续突破。 一是实现精准屏幕解析。 如 微软开源基于大模型的屏幕解析工具OmniParser ，能够将用户界面的屏幕截图解析成结构化数据、识别和标记用户界面中的可交互区域。 二是实现像人类一样操作终端设备。 如Anthropic发布能够操作计算机的大模型Claude 3.5 Sonnet，可根据指示操作鼠标、使用应用程序等；苹果推出多模态大语言模型Ferret-UI 2，能识别和理解各种移动设备屏幕上的UI元素、执行用户指令，例如确认提交、点击按钮等。大模型终端使用能力能够实现终端感知和交互过程自动化，可被应用于自动搜集信息填表、查找代码错误等多个办公场景中，极大提升工作效率。未来或将进一步实现大模型跨应用、跨系统、跨终端操作终端设备，拓宽大模型自动化办公边界，加速AI在办公自动化领域应用。

2. AI代码生成市场前景广阔，科技巨头纷纷加注AI编程助手

AI代码生成是人工智能和机器学习方法在计算机代码编写领域的应用，通过降低程序编写门槛推进软件研发变革，带来广阔市场空间，行业巨头们也相继布局。 一是随着生成式AI在代码编写领域的成熟以及规范化开发需求的增加，AI代码市场将迎来快速扩张。Data Bridge Market Research 分析称，2023年全球AI代码市场价值为42.9亿美元，预计到2031年将达到244.6亿美元，在2024-2031年预测期内的复合年增长率为24.30%； 沙利文及头豹研究院 进一步对中国AI代码市场进行预估，预计中国市场将由2023年的65亿元人民币增长至2028年的330亿元人民币，年复合增长率达37.55%。 二是科技巨头多已入局，易用、高效的AI编程工具逐渐涌现，将持续推动软件研发创新发展。 近期， Anthropic为Claude推出可辅助数据分析编程的JavaScript沙盒工具，微软GitHub推出可通过自然语言描述完成应用开发的GitHub Spark ，谷歌表示目前超25%的新代码由AI生成。AI辅助工具的成熟应用，使非程序员也能便捷地编写程序及开发应用，在推动软件行业创新发展的同时，也为更多人提供创造力释放的机会。

3. 国内外AI企业正通过自研+竞品替代的长短期并行策略加强芯片自主权

当前英伟达凭借对全球AI芯片市场的垄断正主导AI产业发展 。Gartner今年1月预测数据显示， 英伟达在全球AI芯片市场的市占率最高已达90% 。下游AI企业发展短期受限于英伟达算力芯片供应，长期更依赖于英伟达软硬协同生态体系。 为加强自身对底层算力的掌控能力、减少对英伟达的依赖，国外头部AI企业普遍采取“自研+竞品替代”的长短期并行策略 。如消息称 OpenAI 一方面携手博通和台积电开发首款自研AI芯片、并计划于2026年推出，另一方面增添AMD芯片供应、保障供货和控制成本；苹果宣布使用8000片谷歌TPU训练其AI模型。 国内企业亦采取类似路径加速推进国产化替代 ，百度、华为等大企业加速自研AI芯片，算力基础较薄弱的AI企业则积极开展与国产芯片供应商的合作，如智谱AI推出的模型产品已支持十余种国产芯片生态；科大讯飞深度绑定华为，完全基于昇腾算力原生开发训练讯飞星火V4.0，并已 启动建设国产超大规模智算平台“飞星二号” ，持续推进新模型新算法对昇腾芯片的适配、优化。

每周一场景：事件溯源

1. 场景简介

事件溯源是利用智能化、信息化手段，通过整合多源信息梳理事件发展脉络，帮助相关部门掌握事件全貌，快速定位事件起源、关键节点，为后续指挥、处置工作提供有益参考。中国信通院指出，通过智能监测、智能决策、智能执行等智能化手段，可提高城市治理的效率和准确性，实现监测分析研判动态化、热点事件溯源精准化、应急指挥反馈全面化。

传统事件溯源主要依靠人工分析，存在以下痛点和难点：

数据收集的全面性挑战： 事件溯源涉及线上、线下的海量多模态数据，包括文本、图片、音频、视频等，且信息通常来自不同平台和渠道，全面、高效地收集和整合信息的难度较高。

时效性较差： 事件溯源通常要求工作人员根据局部或片段信息，在海量信息中进行阅读筛选、相关性分析、路径推演，进而还原出事件的来龙去脉，过程复杂且耗时，存在时效性瓶颈。

2. 大模型赋能

全面信息掌握： 基于大模型实现多模态落查事件，广泛收集社交媒体、监控视频、热线电话等多源数据，通过对全网音视频、图片、文字等信息进行多模态数据融合分析，从而快速定位事件。

秒级还原事件真相： 大模型赋能后，通过多模态分析和舆情事件分析能力，根据局部信息进行逆向溯源研判，快速梳理出事件的关键要素并还原事件全过程。

分钟级推荐处置建议： 通过大模型训练学习以往类似案件，提升预案和处置建议推荐能力，针对突发事件快速、准确预测事件发展趋势，分钟级推荐处置建议。

事件全景报告自动生成： 运用大模型总结分析能力，针对事件脉络、关键要素等进行总结自动生成热点事件全景报告，提高时效性，尽可能降低城市热点事件影响。

3. 产品&解决方案

（1）百度九州智声·舆情内参助手

依托政务大模型跨模态语义理解、数据分析、总结摘要、对话问答、写作生成等能力，基于全网音、视、图、文信息，提供事前大数据预警、事中深度洞察、事后自动报告等全方位智能舆情服务。产品面向网信办、宣传部等公共管理部门，应急局、卫健委等行业管理部门，以及省市县城运中心，提供功能包括：

事件溯源： 主动发现事件，并根据局部、片段信息，快速进行逆向溯源研判，自动梳理脉络、总结观点并进行影响或关联分析。

智能推荐： 主动给出当前阶段的处置预案，提供类案处置建议。

模拟问答： 支持按照领导、记者、公众等多角色进行模拟问答，辅助做好临场应对。

深度分析： 围绕事件相关的人、地、时因素，分析梳理传播、反馈、引导、结果等信息，智能生成分析报告。

（2）蜜度的城市治理及公共决策风险防范感知系统

蜜度公司的城市治理及公共决策风险防范感知系统（以下简称城感通）以全媒体多模态信息为基础，运用大数据、自然语言处理、计算机视觉等先进技术，通过互联网平台中的海量民情民意信息，协助相关部门及时发现、快速感知城市（区域）内的突发事件、舆论态势和热点事件，并通过转办督办平台，为各级部门提供具体问题分发、督办、解决的全流程服务。

城感通的四大子系统中，突发事件感知系统以某一城市(区域)内的事件、主体为感知对象，对全网信息中的文字、图片、视频等元素进行多模态数据融合分析，提取突发事件关键要素，实现快速发现、定位该城市(区域)内的突发事件。如基于网友线上发布的火灾信息，快速进行溯源研判、梳理事件脉络，形成丰富事件描述信息，包括事件时间、事件过程、地理位置等。

（3）基于AI技术构建疫情溯源系统

为实现准确、高效溯源，第四范式携手南京大学、苏北人民医院临床研究专家组成联合团队，利用机器学习技术构建数据驱动的新型冠状病毒肺炎传播数字孪生系统，构建潜在传染关系网，结合病患信息，在关系网中找到可能的传播源以及潜在超级传染者。

4. 应用实例： 基于盘古政务大模型的福田政务智慧助手小福

深圳福田区政数局携手华为云，打造了基于盘古政务大模型的福田政务智慧助手小福，面向政务一网通办、一网统管、一网协同等场景，提供政务热线对话问答、政务文案生成、城市视频感知、视频多模态理解、开放事件发现等五大政务技能，构建从感知-认知-处置-决策全流程智能化能力，系统提升城市治理网格化、标准化、智能化水平。

在城市治理一网通管领域，不同的感知源接入到盘古大模型，通过NLP与CV大模型的多模态融合训练，可实现对文本输入、城市视频、图像的动态解析，进而非常好地理解交通事故、高空抛物、水管破裂、车辆违规停放等开放场景。盘古大模型对福田区超20万条政务数据进行精调，包括12345热线、政策文件、政务百科等，理解城市的政策法规、办事流程。此外，福田区引入无人清扫车、无人机等设备设施，通过盘古大模型视频万物检测分析能力，精准识别事件，并增加逻辑推理能力，除了发现城市异常现象，还能分析出现象的根因、找到责任部门以及给出处置建议，实现城市事件秒级发现、快速溯源。

本文作者

王晓娣

【大模型周报第97期】微软开源基于大模型的屏幕解析工具OmniParser

正文

请到「今天看啥」查看全文