1、国内外大模型与AI应用每日数据跟踪241101
2、AI新闻速递:《任正非:世界走向人工智能的潮流不可阻挡》等
3、计算机“牛市利刃”之国产AI算力
4、国产AI算力“立地”,数据要素“顶天”
5、托普云农:稀缺的AI+农业领军者
6、【民生AI体验官】AI Agent奇点临近
7、【民生AI体验官】福昕IDP:唤醒“沉睡”的企业数据
由于24年5月起,OpenAI实行无需登录即可在PC/移动端使用ChatGPT的策略,ChatGPT的DAU数据快速提升。
Midjourney4月份DAU达到近140万高点后由下滑逐渐转为稳定,总体DAU稳定在30-40万人,平均访问时长提升至10-12分钟。
Character.aiDAU在5-6月达到330万左右后由下滑转为稳定,总体DAU近期快速下滑至200万人,平均访问时长已由30-35分钟快速下降至15分钟。
目前HuggingFace总体DAU稳定在40万人左右,平均访问时长稳定在5-7分钟。
Duolingo总体DAU自4月份以来维持在175万人左右,平均访问时长稳定在9-10分钟。
目前讯飞星火总体DAU稳定在6-7万人,趋于平稳,本周持续波动。平均访问时长稳定在1-2分钟。
目前百度文心一言总体DAU稳定在30-40万人,整体呈现增长趋势,平均访问时长1分钟。
目前字节跳动豆包维持上升趋势,目前日活达到30-35万人,平均在线时长为2-3分钟。
目前kimi总体DAU维持60万人,平均访问时长稳定在2-4分钟。
免责声明:基于公开资料整理,可能存在信息滞后或更新不及时、不全面的风险;任何情况下,不构成投资建议。【任正非最新谈话:世界走向人工智能的潮流不可阻挡】
据财联社,10月31日,华为创始人兼CEO任正非与ICPC(国际大学生程序设计竞赛)主席、教练及获奖选手座谈会纪要曝光,座谈时间是今年10月14日。在座谈中,针对不同国家选手的提问,任正非谈到了不同国家的特点,同时还对人工智能、年轻人创业等话题发表了看法。针对人工智能的发展,他认为,世界走向人工智能的潮流是不可阻挡的。由于芯片、算力……各种技术的发达,促进了智能时代的到来,就像英国发明了火车、纺织机械、轮船一样,它产生了时代的转折点,现在这个时代的转折点是人工智能的应用。谈及创业话题,任正非表示,如果年轻人想创业,那就要为了自己的理想无怨无悔,哪怕沦为乞丐。“字节跳动的创始人在创业之初也很艰难,东一榔头西一棒子,走半天走不出路来,差点就陷入非常困难的境地了,但是最后字节成为了世界上最伟大的公司之一。所以,创业不好玩,没路可走才去创业。”对于华为的未来,任正非依然保持危机意识。资料来源:https://mp.weixin.qq.com/s/yKltbkXrzVn9CbHBuu9R3A
据TechWeb,用户可以直接在ChatGPT内搜索,以获取及时、最新的信息,并附有与其来源链接的引文。除了使用网络资源之外,ChatGPT在提供答案时还会考虑用户的聊天上下文,以确保用户的回复完全符合正在寻找的内容,这比传统的网络搜索引擎有优势。OpenAI还表示,它与新闻和数据提供商合作,为用户提供针对不同类比(例如天气)的最新信息和视觉设计。资料来源:https://mp.weixin.qq.com/s/guH3Gfoxtz4-66gQXBeqTg免责声明:基于公开资料信息整理,可能存在信息滞后、更新不及时、不全面、翻译错误的风险;任何情况下,不构成投资建议。
巨头高景气度延续,算力产业持续加速发展。英伟达FY2025Q2收入约为 300 亿美元,同比增长 122%,其中数据中心季度收入创下 263 亿美元,同比增长 154%;净利润166亿美元,同比增速近170%。AMD 2024Q2收入约为 58 亿美元,净利润2.65亿美元,去年同期为0.27亿美元;2024Q2数据中心事业部营业额达 28 亿美元,同比增长 115%,主要得益于 AMD Instinct GPU 出货量大幅增长和第四代 AMD EPYC CPU 强劲销售增长。
国内算力需求或是最确定主线,底层算力国产化进程有望加速。1)需求侧:国产算力保持高景气度,运营商、政府等下游需求旺盛。据中国移动2023年至2024年新型智算中心(试验网)采购项目、中国移动2024-2025年新型智算中心集采项目、中国联通2024年人工智能服务器集中采购项目以及中国电信AI算力服务器(2023-2024年)集中采购项目等项目,三大运营商共有超1.7万台的AI服务器采购计划,AI服务器的采购规模有望达到300亿元,以华为昇腾为代表的国产算力已经成为招标主力。政策定调强调AI产业发展的重要性,各地陆续发布算力基础设施相关政策,响应人工智能产业浪潮,各地智算中心建设不断加速。
2)供给侧:龙头企业不断完善自身生态,底层算力国产化进程有望加速。以昇腾为例,其开发者生态不断完善:截至2024年7月,昇腾已经有3万多原生贡献者累计提交了9.5万代码合入请求,联合伙伴/客户核心开发者原生打造了80多个融合大算子,同时在AI基础软件架构、训练和推理的解决方案、AI产业生态体系进行全面升级。
国产算力龙头受益于行业大趋势,业绩实现良好成长。以浪潮信息为例,2024H1公司营收420.64亿元,同比增长69%;其中2024Q2单季度实现营收244.57亿元,同比增长59%的同时单季度营收创下历史新高。2024H1浪潮信息合同负债科目金额达到77.25亿元,相较于2024年初增长304%;另一方面公司为了应对服务器订单的大幅增长进行了大量备货举动,截至2024H1存货科目达到创历史新高的319亿元,作为服务器龙头充分受益于国内算力建设周期。同时也可以看到,由于高端GPU的供应瓶颈问题,海外地区的AI算力需求在2023年上半年优先得到满足。而随着供应问题缓解,国内AI算力建设的需求有望加速释放,多个国产算力龙头业绩均保持高增。
投资建议:国内算力需求或是最确定主线。浪潮信息业绩强势反转印证算力行业需求的高景气;海外AI巨头微软、谷歌最新季度财报中算力资本开支的增长态势明显,英伟达、AMD等龙头业绩强劲增长。考虑到GPU供应问题带来的中美算力投资周期错位,2024年国内算力建设或是最确定主线。三大运营商陆续发布大额招标,国产AI算力已成为主流,长期前景广阔。
建议重点关注:寒武纪、浪潮信息、海光信息、中科曙光、紫光股份、中国长城、神州数码等国产算力龙头。
风险提示:政策落地不及预期;技术变化具有不确定性;行业竞争加剧。
英伟达业务高景气度延续,AI成为主要成长动力。英伟达FY2025Q2收入约为 300 亿美元,同比增长 122%,其中数据中心季度收入创下 263 亿美元的纪录,同比增长 154%;净利润达到166亿美元,同比增速近170%。根据英伟达官方公众号,NVIDIA H200 Tensor Core 与 NVIDIA Blackwell 架构 B200 Tensor Core 处理器的组合在最新行业标准 MLPerf 推理基准测试结果中表现亮眼。
英伟达生态等建设方面取得长足发展:1)云服务:CoreWeave 成为首家提供搭载 H200 GPU 的系统的云服务商。同时,公司发布一系列配备 NVIDIA Grace™ CPU、网络和基础设施的 Blackwell 系统,NVIDIA Spectrum - X™以太网网络平台得到云服务商、GPU 云提供商和企业的广泛采用,合作伙伴也将该平台整合到其产品服务中。2)生态建设及平台化布局:公司在全球范围内向开发人员提供 NVIDIA NIM™,并宣布超过 150 家公司正在将微服务集成到其平台中,以加速生成式 AI 应用开发。通过开源的 NVIDIA CUDA - Q™量子计算平台,助力全球各地的国家级超算中心加快量子计算的研究发展。3)服务布局:推出 NVIDIA AI Foundry 服务和 NIM 推理微服务,以利用 Llama 3.1 系列模型,加速全球企业的生成式 AI 发展。同时,在 NVIDIA DGX™ Cloud 上推出 NIM 微服务赋能的 Hugging Face 推理服务,使开发者能够部署流行的大语言模型。
AMD数据中心业务高速增长,未来发展前景广阔。2024Q2,AMD收入约为 58 亿美元,净利润2.65亿元,去年同期为0.27亿美元。根据AMD官方公众号,2024Q2数据中心事业部营业额创季度新高,达 28 亿美元,同比增长 115%,主要得益于 AMD Instinct GPU 出货量大幅增长和第四代 AMD EPYC CPU 强劲销售增长。
产品、生态建设齐头并进。1)在 Computex 2024上公布 AMD Instinct 加速器扩展路线图,AMD表示,2024 年第四季度将推出全新 AMD Instinct 加速器,拥有领先存储容量和计算性能;2025 年推出下一代 AMD CDNA 4 架构,与 CDNA 3 架构相比,AI 推理性能预计提升 35 倍。2)AMD宣布 AMD 锐龙 AI 300 系列处理器,是第三代 AMD AI PC 处理器,面向 Window Copilot + PC 提供业内领先的 50 TOPS 的 AI 处理能力,多家 OEM 厂商宣布搭载该系列处理器的全新设备。3)生态方面,AMD和业内领先企业宣布成立 UALink 推广组,利用 AMD Infinity Fabric 技术,推进基于开放标准的人工智能网络基础设施系统。云服务提供商展示由 AMD Instinct 系列加速器驱动的产品,微软宣布全新通用的 Azure GPU 系列的新增旗舰产品,为 GPT 工作负载量提供领先性价比。4)面向高性能 AI 工作站,发布了 Radeon PRO W7900 双插槽显卡和扩展的 AMD ROCm 6.1.3 软件,支持使用特定的 AMD Radeon 台式机 GPU 加强 AI 开发和部署。
从中国台湾地区信骅科技收入来看,也能看出AI服务器的高景气度延续的趋势。信骅科技进入2024年以来业绩强势反弹,2024年5月、6月营收分别为4.35、5.05亿元新台币,6月单月同比增速超过100%。7-8月继续保持高增态势,且单月增速不断提升。
2 国内算力需求或是最确定主线,底层算力国产化进程有望加速
2.1 需求侧:国产算力保持高景气度,运营商、政府等下游需求旺盛
根据IDC数据,国内智能算力规模正在高速增长。2022年中国智能算力规模达259.9每秒百亿亿次浮点运算(EFLOPS),预计到2027年将达到1117.4EFLOPS(基于FP16计算)。2022-2027年期间,中国智能算力规模年复合增长率达33.9%。2022年中国通用算力规模达54.5EFLOP5,预计到2027年通用算力规模将达到117.3EFLOPS(基于FP64计算)。2022-2027年期间,中国通用算力规模年复合增长率为16.6%。
政府:顶层定调强调AI产业发展的重要性,各地陆续发布算力基础设施相关政策,响应人工智能产业浪潮。《2024年政府工作报告》提出,在人工智能方面,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群;算力建设方面,适度超前建设数字基础设施,加快形成全国一体化算力体系。北京、上海、深圳等地也陆续发布指导性文件,对当地的算力基础设施建设进行规划。
国内大力推进智算中心和智算网络的建设,以进一步完善算力产业链上的基础设施。智算中心不仅具备处理网络数据的能力,还能成功地将计算任务更智能地并行化处理,根据不同地区的计算能力需求进行灵活调度和分配。
运营商:陆续发布大额AI服务器采购项目,进一步强化了国产AI算力需求的确定性。根据中国移动采购与招标网、C114通信网公众号以及通信产业网,据中国移动2023年至2024年新型智算中心(试验网)采购项目、中国移动2024-2025年新型智算中心集采项目、中国联通2024年人工智能服务器集中采购项目以及中国电信AI算力服务器(2023-2024年)集中采购项目,三大运营商共有超1.7万台的AI服务器采购计划;根据上述四大招标项目已经公布的招标计划,AI服务器的采购规模有望达到300亿元。从中国移动、中国联通、中国电信已经公布的AI服务器招标看,以华为昇腾为代表的国产算力已经成为招标主力。
2.2 供给侧:龙头企业不断完善自身生态,底层算力国产化进程有望加速
国产算力生态不断加速完善,以昇腾为例:1)开发者生态不断完善:截至2024年7月,昇腾已经累计培养了30多万昇腾原生的学生,有3万多原生贡献者累计提交了9.5万代码合入请求,联合伙伴/客户核心开发者原生打造了80多个融合大算子;原生商业生态上,已发展了50多家APN伙伴,孵化了20多个原生大模型以及50多个大模型应用。
2)整体AI布局的全面升级: 第一,昇腾AI基础软件架构升级,升级了CANN、昇思、MindStudio工具链,以更好地满足大算子/大模型的开发和调优需求,同时新增了MindSpeed分布式加速套件、MindIE推理引擎、知识增强 SDK、CCAE集群自智引擎,来加速大模型的训练、推理和应用开发,实现大模型开发、调优、训练、推理、应用开发的全面完善。第二,训练和推理的解决方案升级,通过MindSpeed分布式训练加速套件提供丰富的大模型分布式并行算法及并行策略,在计算、通信以及内存等方面深度优化,提高计算效率,在有效训练时长里获得最大的计算能力,将长稳训练时间从周级提升到月级。第三,昇腾AI产业生态体系升级,体系化赋能开发者,并协同伙伴拓展行业场景。
国产算力龙头受益于行业大趋势,业绩实现良好成长。以浪潮信息为例,2024H1公司营收420.64亿元,同比增长69%;其中2024Q2公司单季度实现营收244.57亿元,同比增长59%的同时单季度营收创下历史新高。得益于中美算力投资周期的错位,在2024年中国迎来算力建设高峰。同时,合同负债&存货等指标预示公司业绩有望更进一步。2024H1浪潮信息合同负债科目金额达到77.25亿元,相较于2024年初增长304%;另一方面公司为了应对服务器订单的大幅增长进行了大量备货举动,截至2024H1公司存货科目达到创历史新高的319亿元。两项前瞻指标均足以证明,浪潮作为服务器龙头充分受益于国内算力建设周期。
中美算力投资错位带来机遇,中国AI算力建设23年下半年开始加速。以OpenAI引领的生成式人工智能的科技浪潮,带动了AI算力投资的快速增长,而由于高端GPU的供应瓶颈问题,海外地区的AI算力需求在2023年上半年优先得到满足。而随着供应问题缓解,国内AI算力建设的需求有望加速释放,多个国产算力龙头业绩均保持高增。
国内算力需求或是最确定主线。浪潮信息业绩强势反转印证算力行业需求的高景气;海外AI巨头微软、谷歌最新季度财报中算力资本开支的增长态势明显,英伟达、AMD等龙头业绩强劲增长。考虑到GPU供应问题带来的中美算力投资周期错位,2024年国内算力建设或是最确定主线。三大运营商陆续发布大额招标,国产AI算力已成为主流,长期前景广阔。
建议重点关注:寒武纪、浪潮信息、海光信息、中科曙光、紫光股份、中国长城、神州数码等国产算力龙头。
1)政策落地不及预期:目前AI算力产业发展仍处于初期,如果未来政策落地进度具有不确定性,可能会导致产业推进进度具有不确定性,影响国内智算中心等建设,进而影响相关公司业绩增长前景。
2)技术变化具有不确定性:AI算力产业目前技术进步较快,且存在不同技术路径,相关变化具有不确定性,未来技术路径等变化可能将对领军企业的行业地位以及市场整体格局带来影响。
3)行业竞争加剧:目前AI算力产业存在一定程度竞争,随着市场需求的持续释放,目前行业内主要企业均持续发力,围绕芯片、服务器等细分领域进行竞争。未来技术、市场等方面存在行业竞争加剧的可能。
1.1 数据要素:重磅政策集中落地,全面迎接产业快速发展期
1.1.1 公共数据运营等重磅政策落地,行业开启“从0到1”的发展新篇章
从9月27日国家数据局发布《关于促进数据产业高质量发展的指导意见》(征求意见稿)起,国家数据局已连续发布8项重要政策,行业已经进入政策密集催化期。其中,中共中央办公厅、国务院办公厅发布的《关于加快公共数据资源开发利用的意见》,提出“到2025年,公共数据资源开发利用制度规则初步建立,资源供给规模和质量明显提升,数据产品和服务不断丰富,重点行业、地区公共数据资源开发利用取得明显成效。到2030年,公共数据资源开发利用制度规则更加成熟,资源开发利用体系全面建成”,公共数据的发展大幕已经开启。数据要素从国家战略意义上是新时代的生产要素,对提升全社会生产力尤其对促进我国 AI 领域发展具有重要意义。
地方政府重要政策也逐步落地,数据要素有望成为改善资产负债率、释放制度红利“点睛之笔”。《广州市数据条例》首次提出有关部门应当探索评价各行政区内数据对经济社会发展的贡献,同时提出,公共数据资源使用费应当按照相关规定缴入同级财政。
数据要素是事关新时代生产要素的国家战略;数据是新的生产要素,是基础性、战略性资源和重要生产力。数据运营等环节释放出的巨大潜在价值,对经济发展具有深刻意义。同时,各地方政府都有丰富的数据资源待开发,通过制度红利授权第三方使用运营,配套的确权、定价、流通等措施,数据资产价值可通过地方政府合作运营或商业化流通等方式释放,整体看有望成为地方政府改善资产负债率的重要抓手。
1.1.2 医保、政务、时空等细分领域有望成为公共数据运营重点
惠民保加快商业补充保险与基本医保的衔接。城市定制型商业医疗保险又称“惠民保”,作为一种普惠性补充医疗保险,其具备低价格、低门槛、高保障等特点。惠民保和城乡居民医保在保额、免赔、赔付比例、保障范围等方面有所区别;惠民保产品价格均相对低廉,能够覆盖各收入人群,体现其惠民的属性。参与主体方面,惠民保已形成了“政府部门+保险公司+第三方平台公司”共同参与的发展模式。2021年6月银保监会印发了首份针对“惠民保”的监管文件——《中国银保监会办公厅关于规范保险公司城市定制型商业医疗保险业务的通知》。2023年2月,杭州市数据资源管理局起草了《杭州市公共数据授权运营实施方案(试行)》,其中明确提到“推动重点场景应用。普惠健康险场景,通过融合保险数据、诊疗数据、医保数据、健康数据等”。
以国新健康为例: 杭州市老年人意外险理赔直达服务。国新健康结合老年人健康保险理赔实际需求,杭州市卫生健康委联合有关部门,打造跨协同应用场景,搭建了杭州市老年人意外险理赔直达服务平台。为意外伤害老年人提供免办理赔手续服务,进一步优化理赔流程,提高政策保险理赔效率。杭州公共数据授权运营场景为商业健康险核保核赔,是公司首次通过数据授权方式进行商业化运营的尝试,以商保数据服务的“小切口”探索建立实践基础及通路,树立典型标杆案例。从长期看,公司有望与更多地方国资公司对接探索,争取本地数据运营权。
多家央企旗下的“国家队”在数据要素领域积极布局。太极股份在交通、工业、“三医联动”、养老健康服务、司法公证服务、政务服务、城市码服务、电力数据服务、安全生产、用工保护等领域打造重要标杆,积极推动行业数据治理、赋能“场景+生态”打造。
对数据的价值评估,是确权和入表的必要环节之一,易华录作为数据咨询服务机构,与资产评估机构配合,根据政府、企业委托对评估基准日特定目的下的数据资产价值进行评定和估算,并出具资产评估报告的专业服务。完成数据资产评估后,企业可推进数据资产出资、转让、质押融资、资产证券化等活动,还可支撑企业财务报告中对数据资产的信息披露,政府可以高效合规完成公共数据运营权益转让工作。同时,公司也积极布局数据咨询、技术平台建设、数据产品开发等领域,帮助地方政府和被授权的大数据公司,规划公共数据运营模式,建设公共数据授权运营平台,实现公共数据的应用、流通与价值变现。
2024年3月28日,自然资源部印发《自然资源领域数据安全管理办法》,对自然资源领域数据开发利用提供指引。政策鼓励自然资源领域数据依法共享开放和开发利用,支持数据创新应用,积极构建数据开发利用和安全产业协调共进的发展模式,不断提升数据安全保障能力,维护国家安全、社会稳定、组织和个人权益。2023年8月23日,《自然资源部关于加快测绘地理信息事业转型升级更好支撑高质量发展的意见》发布,对时空数据供给和应用进行了系统部署,并提出了2025和2030年的建设目标。超图软件厚植优势紧抓数据要素先机,数据治理方面提供数据治理软件工具与服务,推动数据要素效力充分发挥;数据运营方面紧扣大数据局业务线,深耕数据共享开放及运营市场。
1.2 国产AI算力:龙头业绩高增,政策催化下行业高景气度延续可期
英伟达业务高景气度延续,AI成为主要成长动力。英伟达FY2025Q2收入约为 300 亿美元,同比增长 122%,其中数据中心季度收入创下 263 亿美元的纪录,同比增长 154%;净利润达到166亿美元,同比增速近170%。根据英伟达官方公众号,NVIDIA H200 Tensor Core 与 NVIDIA Blackwell 架构 B200 Tensor Core 处理器的组合在最新行业标准 MLPerf 推理基准测试结果中表现亮眼。
AMD数据中心业务高速增长,未来发展前景广阔。2024Q2,AMD收入约为 58 亿美元,净利润2.65亿元,去年同期为0.27亿美元。根据AMD官方公众号,2024Q2数据中心事业部营业额创季度新高,达 28 亿美元,同比增长 115%,主要得益于 AMD Instinct GPU 出货量大幅增长和第四代 AMD EPYC CPU 强劲销售增长。
国产算力龙头受益于行业大趋势,业绩实现良好成长。1)浪潮信息:根据公司业绩预告,2024年前三季度公司营收同比增速70%左右,计算可得约为818亿元,其中第三季度营收约为397亿元,同比增长70%。公司归母净利润12.5-13.5亿元,同比增长61%-74%。根据业绩预告中值计算,公司2024Q3单季度实现归母净利润为7.03亿元,24Q3单季度归母净利率为1.77%,相较于24Q2环比提升0.58pct。2)海光信息:2024年前三季度实现营业收入61.37亿元,同比增长55.64%;实现归母净利润15.26亿元,同比增长69.22%。其中2024Q3单季度公司实现营收23.74亿元,同比增长78.33%;实现归母净利润6.72亿元,同比增加199.90%。
政府:顶层定调强调AI产业发展的重要性,各地陆续发布算力基础设施相关政策,响应人工智能产业浪潮。《2024年政府工作报告》提出,在人工智能方面,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群;算力建设方面,适度超前建设数字基础设施,加快形成全国一体化算力体系。北京、上海、深圳等地也陆续发布指导性文件,对当地的算力基础设施建设进行规划。
运营商:陆续发布大额AI服务器采购项目,进一步强化了国产AI算力需求的确定性。根据中国移动采购与招标网、C114通信网公众号以及通信产业网,据中国移动2023年至2024年新型智算中心(试验网)采购项目、中国移动2024-2025年新型智算中心集采项目、中国联通2024年人工智能服务器集中采购项目以及中国电信AI算力服务器(2023-2024年)集中采购项目,三大运营商共有超1.7万台的AI服务器采购计划;根据上述四大招标项目已经公布的招标计划,截至2024年5月,AI服务器的采购规模已经达到300亿元。从中国移动、中国联通、中国电信已经公布的AI服务器招标看,以华为昇腾为代表的国产算力已经成为招标主力。
近期数据要素领域重磅政策持续落地,产业进入快速发展期。作为国家级战略,公共数据运营等环节所释放出的巨大价值,对经济社会发展以及改善地方政府资产结构都具有重要意义,医保数据等领域的商业价值最清晰。同时,国内算力需求或是最确定主线,浪潮信息业绩强势反转印证算力行业需求的高景气,海外英伟达、AMD等龙头业绩强劲增长。考虑到GPU供应问题带来的中美算力投资周期错位,2024年国内算力建设或是最确定主线。三大运营商陆续发布大额招标,国产AI算力已成为主流,长期前景广阔。
建议重点关注:
国产AI算力:寒武纪、浪潮信息、海光信息、中科曙光、紫光股份、中国长城、神州数码等国产算力龙头。
数据要素:1)医保数据要素:国新健康、久远银海等;2)数据要素“国家队”:易华录、太极股份、中国软件、深桑达等;3)时空数据要素:超图软件、测绘股份、中科星图、航天宏图等;4)政务、财政数据要素:数字政通、新点软件、博思软件、中科江南等。12312213
农业AI平台型厂商,深耕G端优质客户,财务指标稳健增长。托普云农聚焦于种植业的全周期软硬件一体化综合解决方案,主要产品为物联网项目、软件平台及智能硬件设备;公司的主要客户结构相对稳定,主要为农业相关地方职能部门等政府单位;公司2023年实现营收4.59亿元,同比增长22%,公司在2019-2023年维持稳健增长,复合增速达到19%,同时公司近年来维持55%/25%左右的毛利率/净利率与33%左右的三费费用率水平。
政策有望催化智慧农业千亿蓝海市场,公司通过构筑强大技术壁垒营造良好竞争格局。2024年10月9日,《全国智慧农业行动计划(2024—2028年)(送审稿)》原则性通过,政策层面或加大对高端智能农机装备的支持力度,大力支持传感器、芯片、算法、模型等攻关,围绕智能监测、精准作业、农业机器人等关键环节重点领域,深入谋划一批重大项目、重大工程,推动相关技术装备不断突破并加快落地,有望催化智慧农业千亿蓝海市场;公司依托于长期积累的行业经验,拥有对行业具有深刻理解的核心技术体系,已经形成较高的技术壁垒,公司有望长期受益于良好的市场格局。
募集项目分析:深化智慧农业生态布局。公司本次拟向社会公众公开发行2,132万股人民币普通股(A股),占本次发行后总股本的比例为 25%,具体投向安排分别为:智慧农业平台升级建设项目、智慧农业智能设备制造基地项目、研发中心升级建设项目。公司本次募集资金投资方向是新一代信息技术产业领域在现代化农业的深度融合与应用,围绕公司在智慧农业领域的产业布局、主营业务覆盖领域、主要产品结构,扩大公司主要产品供应能力,有助于持续提升公司在智慧农业领域的技术领先性和产品创新及应用范围。
盈利预测与估值:公司是稀缺的AI+农业领军者,通过运用物联网、人工智能、大数据等新一代信息技术与农业深度融合,主要采用布局智能硬件设备、搭建农业物联网项目、建设信息化软件平台项目的综合服务形式,为农业领域相关的政府部门、企事业单位、科研院校等提供数据采集、分析决策、精准执行、科学管理服务,未来有望伴随智慧农业持续普及迎来快速成长期。我们预计公司2024/2025/2026年的EPS分别为2.16/2.92/3.88元/股,以发行价测算,公司2024/2025/2026年的PE为7/5/4倍,估值仍有提升空间。
风险提示:行业竞争加剧,技术研发不及预期。
1.1 深耕智慧农业,实现平台化运营
托普云农是国内较早从事以数字化、智能化的方式为农业提供信息化服务的企业。在智慧农业领域深耕十余年间,公司利用物联网、大数据、云计算、人工智能等新一代信息技术实现了由设备供应商向综合解决方案服务商的转型升级:
1) 智能设备导向阶段(2008-2012年):公司成立初期以农业精密仪器的研发生产为主,收入的主要来源是智能硬件设备的销售。通过多年在种子科研、土壤监测、植物生理等细分领域的技术研发与销售拓展,公司产品取得了市场较高的认可,在相关硬件及嵌入式软件方面建立了坚实的技术基础和业务基础,主要里程碑包括农林环境监测系统、面积测量仪等产品获得了国家级星火计划项目证书等;
2) 物联网导向阶段(2013-2017年):公司开始将业务亮点从“数据采集”拓宽至“数据采集与应用”,在原有设备基础上,利用物联网技术进行优化集成,加快产品迭代升级,实现智能设备联网。在此阶段,公司开始布局以物联网为导向的产品线,打造水肥一体化、病虫害监测系统等农业物联网应用,公司的物联网解决方案产品自 2013 年开始形成收入;
3) 信息化软件平台导向阶段(2018年至今):公司响应政策导向,建立以信息化平台为服务导向的业务发展线路,构建部、省、市、县四级联动的农业信息化平台,推进政务信息资源全面、高效和集约采集,形成农业信息资源“一张图”。
公司提供的产品及服务可主要分为智慧农业项目和智能硬件设备两大类,其中智慧农业项目包括农业物联网项目和信息化软件平台项目两种业务类型。
1) 农业物联网项目:利用传感设备等采集农业生产过程相关数据,通过互联网传输并融合处理,以达到用户通过远程操作终端实现农业产前、产中、产后的过程监控及科学决策等目的;
2) 信息化软件平台项目:运用大数据、云计算、深度学习等信息技术,根据农业领域客户的信息化需求,定制开发具有数据监测、过程管理、智能决策、综合服务等功能的软件平台;
3) 智能硬件设备:包括可直接联网的智能装备、具备监测或检测功能的仪器设备、搭载在物联网或其他装置的传感器等前端硬件,帮助用户达到自动监测、检测、控制等目的。
公司物联网项目应用领域聚焦于农业种植业,提高种植业全周期的数字化、自动化水平。对于种植业全周期过程的重要条件(种质资源、耕地质量、病虫害情、环境气候、智能灌溉),公司物联网项目的功能均有覆盖,且以综合运用为主。从筛选、收集、保藏优良种质开始,根据农作物品种定制自动化模型,帮助农作物在合适的土壤、气候环境下生长,观察和监测生长过程中病虫害情况,根据生长情况适时进行灌溉、施肥,保证农作物健康成长,实现自动化、智能化管理,节约人力的同时保证农作物品质。根据农作物生长的五个重要条件,公司物联网项目可分为耕地保护、植物保护、环境气候、智能灌溉、种子种质五种功能类别。
公司先后开发了多个综合型、专业型平台,并开发具有大量特定功能的应用系统。公司根据农业农村核心业务信息化转型及数字化改革的需求,开发具有大数据管理、行业监管、智能决策等功能的信息化软件平台,开发涵盖生产管理、行业监管、乡村治理、产品流通、公共服务等领域的信息化应用系统,提升农业农村主管部门数字化治理能力和农业产业发展智能化水平。
公司智能硬件设备主要应用于农业种植业,按照单棵植株的生长全周期过程。公司智能硬件设备通过传感器收集到农业信息后,结合图像识别、机器学习等信息技术,配合设备内嵌入式软件,使用者可直接通过仪器显示屏读取结果,或完成自动筛选。公司智能硬件设备功能以检测、监测功能为主,可帮助使用者了解种植过程中的各项信息,实现更优的种植决策。公司客户覆盖农业领域的不同职能、不同类型的企事业单位,使用场景广泛、应用功能各异,为满足客户个性化需求,公司提供的智能硬件设备品类丰富,可为客户提供上百种类型的智能硬件设备。
1.2 面向优质G端客户,公司各项财务指标稳健成长
公司的主要客户结构相对稳定,主要为农业相关地方职能部门等政府单位,主要采取直销方式。公司致力于新兴技术与农业产业融合,为农业领域的政府部门、科研院校、企事业单位提供智慧农业综合解决方案。公司采取直销销售模式,通过招投标、商业谈判等方式与客户达成合作。公司目前已拥有一支业务水平较高的营销队伍,主要负责开拓客户、市场调研、公司产品推广等营销工作,积累了一批农业领域优质客户,与各地方政府部门、企事业单位建立了稳定的合作关系。公司近三年最大客户收入占比仅为5%左右,前五大客户收入占比小于20%,公司各年度间主要客户有所变动,主要系由于行业特点,客户往往并非每年均有较大的信息化建设需求,因此前五大客户变动较大。
公司整体业务稳健增长,其中软件平台业务规模快速扩大。公司2023年实现营收4.59亿元,同比增长22%,公司营收在2019-2023年维持稳健增长,复合增速达到19%;公司软件平台业务规模近年来快速扩大,在2023年实现营收0.72亿元,2019-2023年实现复合增速65%;公司物联网业务2023年实现营收1.98亿元,2019-2023年实现复合增速21%;公司智能硬件设备2023年实现营收1.81亿元,2019-2023年实现复合增速10%。
公司毛利率较为稳定,整体稳定在55%左右。公司主营产品因持续的政策利好支持,市场需求较为旺盛,且由于公司是行业内先行、专业的企业,具备产品丰富、技术研发、行业资源等多方面的综合竞争优势,面临的直接市场竞争压力较小,公司具有较强的产品定价和议价能力,促使公司毛利率维持在相对较高的水平:
1)物联网业务2021年部分项目在实施成本较高、毛利水平相对较低的情况下,公司仍然获取订单并实施,目的在于以短期利益换取长期发展利益,从而导致 2021 年度物联网项目毛利率相对较低;
2)软件平台在 2021 年度相对较低,原因主要系为提升公司软件平台产品的市场影响力、服务核心客户,公司在保证合理利润水平的情况下,采取更具竞争力的产品定价方式获取具备较强市场影响力的大型平台项目,2021 年度交付的大型软件平台项目增加,部分大型项目毛利率低于小型平台项目毛利率;
3)公司智能硬件设备毛利率整体上有较大幅度下降,主要系细分产品结构变动所致。公司智能硬件设备产品种类繁多,2021-2023年内收入有所波动,其中毛利率相对较低的细分产品占比提升,从而拉低了智能硬件设备整体毛利率。
公司近年来维持25%左右的净利率与33%左右的三费费用率水平。由于公司主要面向优质G端客户,且有较为成熟的直销方案,因此公司近年来保持33%的费用率,在公司保持55%左右毛利率的基础上,公司净利率水平稳定在25%左右。
1.3 股权结构稳定,核心团队技术背景浓厚
公司创始人、董事长陈渝阳夫妇持股占比较高,核心团队技术背景浓厚。陈渝阳夫妇直接持股14.25%,此外重大持股情况还有持有托普云农母公司托普控股71%股权,托普控股持股托普云农63.88%。核心团队方面,陈渝阳毕业于浙江大学农学院,长期从事智能装备、智慧应用、农业农村数字化的研究,主持完成多项国家、省市级重大项目并解决一系列关键技术;吴家满,毕业于浙江大学计算机学院,具有前后 15 年“三农”信息化经验,精通将大数据、人工智能、遥感等信息化技术与“三农”行业业务深度融合,参与了浙江省数字乡村实施方案等规划方案编写;谢朝明,毕业于宁波大学计算机及应用专业,具有 10 余年从事通信、网络系统以及计算机软件研究和开发的实践经验。
2.1 智慧农业进入全面推广阶段,带来千亿蓝海市场
我国农业信息化水平偏低,相比海外仍有较大市场发展空间。智慧农业已成为世界现代化农业发展趋势,全球各国都在加快智慧农业布局:
1) 美国:农业以大型家庭农场为主要模式,农场规模平均200公顷以上,远超于我国95%以上小农户的仅有3.4公顷经营面积,从20世纪90年底开始,政府每年拨款10多亿美元建设农业信息网络;
2) 以色列:除灌溉技术外,以色列拥有领先的生物综合防治技术、高产种养技术、精准农业信息化技术、多倍体繁育技术和光热网膜技术等技术,其农业呈现生产设施集约化、高科技低成本、经营模式多样化、生产管理信息化、大数据管理精准化等特点;
3) 德国:德国智慧农业具有农业机械化程度高、形成独具特色的生态农业、农业社会化服务历史悠久等特点。德国配备“3S”技术的大型农业机械,可在室内计算机自动控制下进行各项农田作业,完成诸如精准播种、施肥、除草、采收、畜禽精准投料饲喂、奶牛数字化挤奶等多项功能;
4) 日本:日本于 20 世纪末即开始大力发展“大数据+农业”、“物联网+农业”等革命性技术,以实现农业的信息化、集约化经营,利用信息化技术打造新型农业生态模型;
5) 澳大利亚:20 世纪 90 年代以来,澳大利亚积极推动新技术在农业种植的应用,将全球定位系统、农田遥感监测系统、信息采集系统、地理信息系统、农场数字化管理系统等众多先进技术运用到耕作上。
对比全球市场,我国智慧农业起步较晚,仍处于发展初期,据中商产业研究院,2024年我国智慧农业市场规模有望达到1050亿元,同比增长12%。
我国智慧农业由成长初期向全面推广阶段发展,下游应用从政府端向产业端延伸。在国家政策的大力支持下,智慧农业快速成长,由成长初期的经济发达地区先行先试,打造一批有重大影响的智慧农业应用示范工程和建设一批国家级智慧农业示范基地,到向全国各地全面推广阶段推进。此外,目前智慧农业下游应用领域主要为政府部门和农业示范园区等,随着智慧农业的成熟、普及及推广,以及农民的收入进一步提高和观念逐步转变,未来智慧农业在产业端的应用也将越来越普遍,农业企业、家庭农场等将更多的使用智慧农业相关技术与产品以提高其生产效率和产品质量等。
2024年10月9日,农业农村部党组书记、部长韩俊主持召开部常务会议,此次会议审议并原则通过了《农业农村部关于大力发展智慧农业的指导意见(送审稿)》和《全国智慧农业行动计划(2024—2028年)(送审稿)》。会议强调,智慧农业是现代农业发展的重要方向,是建设农业强国的重要抓手之一,要把智慧农业摆上突出位置,从战略、政策、实践三个层面系统谋划推进。战略层面要强化顶层设计,深入研究谋划有关战略规划,集中各方面资源力量加快补上智慧农业突出短板。政策层面要加大对高端智能农机装备的支持力度,大力支持传感器、芯片、算法、模型等攻关,围绕智能监测、精准作业、农业机器人等关键环节重点领域,深入谋划一批重大项目、重大工程,推动相关技术装备不断突破并加快落地。实践层面要推出更多智能化解决方案,努力提升智慧农业应用水平。
2.2 公司处于产业链上游,竞争格局良好
公司处于智慧农业上游,通过技术优势形成良好竞争壁垒,尚无与公司完全可比的同行业上市公司。公司主营业务系提供聚焦于种植业的全周期软硬件一体化综合解决方案,主要产品为物联网项目、软件平台及智能硬件设备,目前市场尚无与公司完全可比的同行业上市公司。公司依托于长期积累的行业经验,拥有对行业具有深刻理解的核心技术体系,形成较高的技术壁垒。
公司本次拟向社会公众公开发行2,132万股人民币普通股(A股),占本次发行后总股本的比例为 25%。本次募集资金投资方向是新一代信息技术产业领域在现代化农业的深度融合与应用,围绕公司在智慧农业领域的产业布局、主营业务覆盖领域、主要产品结构,扩大公司主要产品供应能力,有助于持续提升公司在智慧农业领域的技术领先性和产品创新及应用范围,具体投向安排分别为:智慧农业平台升级建设项目、智慧农业智能设备制造基地项目、研发中心升级建设项目。
智慧农业平台升级建设项目是对公司现有产品服务底层架构和技术体系进行的升级,进一步完善农业物联网和信息化软件平台两大核心业务板块,提高公司智慧农业平台管理和运营效率,有助于公司项目实施和交付能力,丰富公司产品在农业领域的产业化应用,提升公司核心竞争力。
智慧农业智能设备制造基地项目通过厂房扩建、引入先进生产设备,对现有智能设备生产基地升级改造和扩充产能,优化产品生产效率、丰富产品结构,从而提升公司智能硬件设备供应能力以满足市场及客户快速增长的多样化需求。
研发中心升级建设项目是对公司现有研发中心的升级,有助于公司研发团队持续稳定发展,保证公司核心竞争力,通过引进更先进的研发设备及高素质技术人才,为公司未来业务的深度拓展和价值延伸奠定坚实基础。
公司募集资金投向均是在公司现有主营业务基础上的进一步延伸、拓展与加强,公司通过募投项目的实施,有助于公司未来经营战略的实现,能够进一步提升公司的主营业务收入水平,有效提升整体盈利能力;也将进一步提升主要产品的产品质量和生产效率,增强公司的核心竞争力,对公司业务创新创造提供有利支持。
4.1 盈利预测假设与业务拆分
1)农业物联网业务:在我国农业现代化转型需求、国家政策支持的背景下,以农业主管部门为主导的下游客户在耕地保护、植物保护、环境监测、智能设施等单一或综合领域的智能化、信息化和数字化产品的需求和投入增加,农业物联网项目相关投资有望加大进而带动公司业务增长,我们预计2024-2026年公司农业物联网业务增速分别为25%/26%/27%;毛利率方面,考虑到未来业务模式和商业模式都相对稳定,扩大产能增强规模优势,我们预计该业务2024-2026年毛利率有望稳中向好,预计分别为58%/59%/59%;
2)智能硬件设备业务:我们预计公司通过募投方式,实现厂房扩建、引入先进生产设备,对现有智能设备生产基地升级改造和扩充产能,推动公司智能硬件业务迎来稳定增长,我们预计2024-2026年该业务收入增速分别为15%/25%/30%;毛利率方面,我们预计产能升级有望提升规模效应并对该业务毛利率水平小幅优化,我们预计该业务2024-2026年毛利率分别为47%/48%/50%;
3)软件平台业务:我们预计在经济复苏、政策鼓励背景下,公司以AI为核心的软件平台从传统G端客户扩展到B端,进而带动该业务快速增长,我们预计该业务在2024-2026年收入增速分别为30%/35%/37%;软件平台业务商业模式稳定,我们预计2024-2026年毛利率稳定在68%左右。
主要费用率:1)销售费用率:公司客户结构较为稳定,市场渠道成熟,我们预计2024-2026年公司销售费用率稳定在12%;2)管理费用率:随着公司不断提升内部管理能力,管理费用率有望稳中有降,我们预计2024-2026年公司管理费用率为9%/8%/8%;3)研发费用率:公司是智慧农业领军者,技术领先性显著,长期以来保持11%的研发费用率水平,我们预计2024-2026年公司研发费用率稳定在11%水平。
4.2 估值分析
公司是稀缺的AI+农业领军者,通过运用物联网、人工智能、大数据等新一代信息技术与农业深度融合,主要采用布局智能硬件设备、搭建农业物联网项目、建设信息化软件平台项目的综合服务形式,为农业领域相关的政府部门、企事业单位、科研院校等提供数据采集、分析决策、精准执行、科学管理服务,未来有望伴随智慧农业持续普及迎来快速成长期。根据公司招股说明书,选取客户属性与业务形态具有一定相似性的理工能科、山大地纬进行对比,以2024年10月16日的收盘价计算,2家公司的2024/2025/2026年的PE均值为29/23/18倍。我们预计公司2024/2025/2026年的EPS分别为2.16/2.92/3.88元/股,以发行价测算,公司2024/2025/2026年的PE为7/5/4倍,估值仍有提升空间。
1)行业竞争加剧。智慧农业行业目前处于快速发展阶段,市场集中度较低、行业竞争不够充分,尚未出现具备绝对领导地位的行业领军企业,亦未形成较为稳定的市场格局;如果公司不能持续进行技术创新、品牌建设和渠道拓展,则可能无法在日趋激烈的市场竞争中实现持续增长。
2)技术研发不及预期。若公司不能充分把握市场需求和未来发展方向,推出满足下游行业需求的新产品,则即使持续投入技术开发的人力、资金,亦有可能出现技术研发成果无法实现产业化的情况,从而对公司的市场竞争力和盈利能力产生负面影响。
近日,智谱在公众号陆续放出电脑版本与手机版本的AI Agent实操视频:
电脑版:总结百科发微信、旅游攻略/自动点餐等
手机版:只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
据智谱微信公众号,上面这些工作,主要基于以下两项研究:
1、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互;
2、AutoGLM-Web:一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。
同时,今日微软发布OmniParser开源AI Agent论文,效果与智谱演示效果类似:
用户:将约翰内斯堡提供素食选择的餐厅保存到我的行程中
结合智谱相关论文及微软OmniParser论文,我们总结得到:
AI Agent都基于视觉语言模型(VLM),理解和处理来自屏幕截图的视觉信息以及用户指令的语言内容,如理解当前屏幕信息和预测当前屏幕的下一个动作。
CogAgent是一个专门用于理解和导航图形用户界面(GUI)的视觉语言模型(VLM)。它通过结合低分辨率和高分辨率的图像编码器,支持高达1120×1120分辨率的输入,使其能够识别页面上的微小元素和文本。这个模型在多个文本丰富的视觉问答(VQA)基准测试中达到了最新水平,并在PC和Android GUI导航任务上超越了基于大型语言模型(LLM)的方法。
图 1|CogAgent 生成的视觉代理样本
CogAgent的工作原理可以分为以下几个关键部分:
双分辨率图像编码器:CogAgent利用低分辨率和高分辨率图像编码器来处理输入图像。这使得模型能够识别页面上的微小元素和文本。
交叉注意力模块:CogAgent增加了一个交叉注意力模块来处理高分辨率输入。这个模块允许模型在保持适当计算预算的同时,平衡分辨率和隐藏层的大小。
预训练和微调:CogAgent在多个数据集上进行预训练,以增强其理解高分辨率图像的能力,并适应GUI应用场景。预训练数据包括文本识别、视觉定位和网页元素的数据。此外,CogAgent还在多种任务上进行微调,以提高其在GUI环境中的性能。
多任务微调和对齐:为了使模型能够处理多种任务,并与自由形式的人类指令对齐,CogAgent在广泛的任务上进行微调。
1. 双分辨率图像编码器
CogAgent使用两种不同分辨率的图像编码器来处理输入图像。这种设计允许模型同时处理低分辨率和高分辨率的图像数据,以适应GUI环境中对细节识别的需求。
低分辨率图像编码器:使用EVA2-CLIP-E模型,处理224×224像素的图像。这个编码器适用于捕捉图像中的一般对象和布局信息。
高分辨率图像编码器:使用轻量级的EVA2-CLIP-L模型,处理高达1120×1120像素的图像。这个编码器专注于捕捉文本和细小图标等细节信息。
通过这种双编码器设计,CogAgent能够有效地识别和理解GUI中的各种元素,无论是大的布局结构还是小的文本和图标。
图 2|CogAgent 的模型架构
2. 交叉注意力模块
CogAgent引入了一个交叉注意力模块,专门用于处理高分辨率输入。这个模块的核心思想是在保持计算效率的同时,增强模型对高分辨率图像的理解能力。
高分辨率交叉模块:这个模块使用较小的隐藏层尺寸(例如1024),与高分辨率图像编码器的输出进行交叉注意力计算。这种设计减少了模型在处理高分辨率图像时的计算负担。
计算效率:通过引入交叉注意力模块,CogAgent能够在保持高分辨率图像细节的同时,减少计算量。这对于实时或资源受限的应用场景尤为重要。
3. 预训练和微调
CogAgent在多个数据集上进行预训练,以增强其对高分辨率图像的理解能力,并适应GUI应用场景。
预训练数据:CogAgent的预训练数据包括文本识别、视觉定位和网页元素的数据。这些数据帮助模型学习如何在高分辨率图像中识别和定位文本、图标和其他GUI元素。
微调:在预训练的基础上,CogAgent在多种任务上进行微调,以提高其在特定GUI环境中的性能。这包括对不同设备和操作系统的适应,以及对特定应用场景的优化。
4. 多任务微调和对齐
为了使CogAgent能够处理多种任务,并与自由形式的人类指令对齐,模型在广泛的任务上进行微调。
多任务微调:CogAgent在多个公开可用的视觉问答(VQA)数据集上进行微调,以提高其在各种视觉和语言任务上的性能。
对齐:通过微调,CogAgent能够更好地理解和执行人类的自然语言指令,使其在实际应用中更加灵活和有效。
实验评估
1.基础视觉理解能力评估
CogAgent在八个VQA基准测试中进行了广泛的评估,包括VQAv2、OK-VQA、TextVQA、OCR-VQA、ST-VQA、ChartQA、InfoVQA和DocVQA。
图 3|VQA评估基准
结果显示,CogAgent在通用VQA基准测试与文本丰富的VQA基准测试中均取得了最佳分数。
图 4|CogAgent在VQA基准测试中的表现
2.GUI代理:计算机界面
CogAgent在Mind2Web数据集上进行了评估,该数据集包含了来自真实世界网站的2000多个开放式任务。
结果显示,CogAgent在跨网站、跨域和跨任务的三个子集上的表现均优于其他方法,包括基于语言模型的方法和视觉语言模型。
图 5|CogAgent在Mind2Web数据集评估中的表现
3.GUI代理:智能手机界面
CogAgent在Android in the Wild (AITW)数据集上进行了评估,这是一个大规模的Android设备代理数据集,包含了71.5万个操作案例,覆盖了3万条不同的任务指令。
结果显示,CogAgent在所有测试集上的表现均超过了先前的方法——包括了仅基于语言的方法以及视觉语言模型的基线。
图 6|CogAgent在AITW数据集评估中的表现
微软OmniParser
OmniParser是一个为了提升基于视觉的GUI代理系统性能而开发的工具,它通过解析用户界面截图,将其转换成结构化的元素。这一过程显著增强了大型视觉语言模型(如GPT-4V)在生成精确定位于界面对应区域的动作的能力。
一个复杂操作任务通常被分解为多个步骤,每个步骤都需要模型(如GPT-4V)完成两个主要任务:
1.理解当前屏幕的UI内容
2.预测当前屏幕上的下一个动作。
研究人员发现,在屏幕解析阶段提取屏幕语义信息,可以减轻GPT-4V的负担,使其能够更专注于动作预测。
图 7|OMNIPARSER解析屏幕截图和语义
OmniParser的工作原理包括以下2个关键部分:
1.可交互区域检测
专注于从用户界面(UI)截图中识别和定位可交互的区域,如按钮、图标和其他控件。
数据集构建:创建了一个包含67,000个不同的屏幕截图的数据集。这些截图来自于流行的网页,并且每个截图都标记有可交互图标的边界框。这些边界框是从网页的DOM(文档对象模型)树中提取的,确保了它们对应于网页上实际可点击的元素。
图 8|可交互区域检测数据集
边界框处理:在检测过程中,除了识别图标和按钮,还有一个OCR模块来识别和提取文本的边界框。为了减少冗余和提高准确性,系统会合并来自图标检测和OCR模块的边界框,去除那些重叠度超过90%的框。
ID分配:每个边界框都会被分配一个独特的ID,这样在后续的动作预测阶段,模型可以引用这些ID来确定用户想要交互的具体元素。
2.整合功能的局部语义
提高模型对用户界面(UI)元素的理解能力,并帮助模型更准确地预测和执行用户任务。
仅提供覆盖有边界框和数字ID的UI截图可能不足以帮助模型(如GPT-4V)准确地理解和预测动作。这是因为模型可能难以同时识别每个图标的语义信息并预测在特定图标上执行的下一个动作。为了解决这个问题,OmniParser 引入了局部语义的概念,即每个检测到的图标或文本框的功能描述。这种描述提供了关于图标或文本框可能功能的额外信息,有助于模型更好地理解UI元素的用途。
数据集构建与模型微调:研究人员构造了一个包含7000对「图标-描述」的数据集。并在数据集上微调了一个基于 BLIP-v2 的模型,使其能够为常见的应用图标生成更准确的功能描述。
功能描述:在检测到每个图标后,微调过的模型会为该图标生成一个描述其功能的文本。这些描述被设计得简洁且信息丰富,以便为模型提供足够的上下文来理解图标的用途。对于文本框,OmniParser 使用检测到的文本及其标签作为局部语义信息。
图 9|局部语义提高GPT-4V理解图标能力
增强的提示信息:在预测阶段,OmniParser 将这些局部语义信息(即图标的功能描述和文本框的内容)整合到模型的提示信息中。这样,模型不仅可以看到UI截图的视觉提示,还可以阅读有关每个元素功能的文本描述。
实验评估
1. SeeAssign任务
为了测试和比较 GPT-4V 模型在有无局部语义信息辅助的情况下,预测用户界面(UI)中正确图标标签 ID 的能力,制作了一个包含 112 个任务的数据集,覆盖移动设备、桌面和网页浏览器三个平台。每个任务包括一个简洁的任务描述和一个屏幕截图,任务描述指向截图中的某个可交互图标。
没有使用局部语义信息时,GPT-4V 的正确率较低,尤其是在屏幕上有很多边界框的情况下。当提供了图标和文本框的局部语义信息后,GPT-4V 的正确率显著提高,从 0.705 提高到 0.938。评估显示,为 GPT-4V 提供局部语义信息可以显著提高其在 UI 任务中的动作预测能力,证明了 OmniParser 在增强模型对 UI 元素理解方面的有效性。
图 10|GPT-4V有无局部语义的对比
2.ScreenSpot基准测试
ScreenSpot 数据集包含了来自移动设备(iOS、Android)、桌面(macOS、Windows)和网页平台的600多个界面截图。
OmniParser 在这个基准测试上显著提高了 GPT-4V 的性能,甚至超过了一些专门针对 GUI 数据集进行微调的模型,如 SeeClick、CogAgent 和 Fuyu。结合局部语义(Local Semantics)和交互区域检测(Interactable Region Detection)的 OmniParser 进一步提高了整体性能,表明准确的交互元素检测和功能局部语义的结合对于 UI 任务的成功至关重要。
图 11|ScreenSpot基准上的比较
3.Mind2Web基准测试
Mind2Web 是一个针对网页导航场景的基准测试,包含了跨领域、跨网站和跨任务等不同类别的任务。
OmniParser 在这个基准测试中表现出色,即使不使用解析后的 HTML 信息,也能大幅度超越使用 HTML 的 GPT-4V 性能。与 GPT-4V+SOM(使用 Set-of-Marks 提示)相比,OmniParser 在跨网站和跨领域类别中的表现更好,而在跨任务类别中略有不足,但总体上,OmniParser 提供了比 DOM 和顶级相关元素提议更高质量的信息。
图 12|Mind2Web基准上的比较
4.AITW基准测试
AITW(Android in the Wild)基准测试包含了30万条指令和71.5万条轨迹,用于评估移动设备导航能力。
在测试中,OmniParser 表现出显著的性能提升,与使用专门针对 Android 图标检测模型的 GPT-4V 相比,整体得分提高了4.7%。这表明 OmniParser 能够很好地泛化到移动屏幕,并在移动设备控制任务中提供显著的性能提升。
图 13|AITW基准上的比较
资料来源:
智谱演示及论文:https://mp.weixin.qq.com/s/iuTo2Gf-XJQKNDl08ods3Q
论文:https://arxiv.org/abs/2312.08914
Demo:http://36.1 03.203.44:7861/代码:https://github.com/THUDM/CogVLM- Huggingface:https://huggingface.co/THUDM/cogagent-chat-hf
- 魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-chat
微软论文:https://huggingface.co/microsoft/OmniParser
免责声明:基于公开信息整理,测试结果仅供参考;或有翻译错误及信息滞后、更新不及时不全面的风险;任何情况下,不构成投资建议。
福昕软件结合了先进的技术、产品和人工智能大模型,推出了福昕智能文档处理中台(简称福昕IDP)。这个平台能够将非结构化的PDF文档数据与结构化的数据存储在数据库中进行有效连接,其核心功能具体表现为:
采用先进的解析算法,福昕IDP能够按照文档的逻辑结构和语义对PDF内容进行分解,将其转换成易于计算机处理的JSON或Markdown格式。这使得原本难以直接利用的信息变得可以被机器理解和操作。利用用户自定义的模板,福昕IDP就能从大量同质的PDF文档中提取用户想要的结构化信息,并将所提取的数据以XML、CSV或其他格式输出,无缝对接到现有的业务系统中。结合AI辅助的知识库构建及检索工具,福昕IDP帮助用户快速建立并维护一个动态更新的知识体系。通过自动分类、标签添加等功能,极大地简化了知识组织流程,在降低运营成本的同时提高检索效率。
一、性能测评
福昕IDP更适用于企业级PDF处理,相较当前的AI助手,其大批量处理文件能力、文件解析的稳定性与准确性、定制化模板等功能十分亮眼。
PDF内容分析与转换
福昕IDP对PDF内容进行分解,将其转换成易于计算机处理的JSON或Markdown格式。这使得原本难以直接利用的信息变得可以被机器理解和操作。
文档图像识别并导出
福昕IDP不仅可以直接转换成JSON或Markdown格式,而且可以自动将文档中可识别的表格、图形一次性提取并导出。
结构化数据提取
利用用户自定义的模板,福昕IDP就能从大量同质的PDF文档中提取用户想要的结构化信息,并将所提取的数据以XML、CSV或其他格式输出,无缝对接到现有的业务系统中。
在上文文档基础上进行可对比分析:
可以对同一模版下多个文档的数据项“导出数据”或“查看统计图”进行对比分析。
在此用2021-2023福昕软件的年报的货币资金和营业收入数据举例:
可进行数据型数据的初步图表统计并导出的功能,形式包含条形图和折线图。
知识库管理
用户可以创建自己的知识库以及标签管理,创建知识库成功之后需关联“文档管理”中已上传的文档,关联后可在“知识搜索”进行提问以及入库等操作。
IDP会根据用户所关联文档的内容进行解析学习,并由此对问题进行回答,其对知识库的管理提供了不错的平台,用户可以针对需要分析的文档,进行管理自己的知识库。
优点:
1、可以自定义提取数据的模板,不限于数据部分,文字处理部分也可以,且都能在一个模板上进行设置,自由度较高。
2、可以批量对类似文档的结构性数据采用单一模板下的一次性提取,大大提高工作效率。
不足:
1、内测阶段,可能带宽不足导致实际体验下来处理速度较慢,例如本案例中的年报300页,字数16.8万字,提取时间约6分钟。
二、对比分析
Kimi
以Kimi为代表的当前大模型助手,通常在小型文件处理上展现出高效,但是无法承担复杂、大批量的文件处理项目。
优势:
1、可以与微信等平台集成;
2、解析速度快,仅需10秒左右即可完成解析
不足:
1、有字数限制
2、不能自定义模板,形成体系,并一次性批量应用模板地针对性提取
3、无文档解析、图像一次性下载、数据对比和结果的导出和知识库管理等功能
内测申请:https://mp.weixin.qq.com/s/YRMVsVxB56xttQKLq2Blmg
免责声明:基于2024年10月24日版本测试,测试结果仅供参考;或有信息滞后、更新不及时不全面的风险;任何情况下,不构成投资建议。
计算机团队介绍
吕伟:民生证券计算机行业首席分析师,北京大学理学硕士,2021年加入民生证券研究所。
分析师承诺
本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并登记为注册分析师,基于认真审慎的工作态度、专业严谨的研究方法与分析逻辑得出研究结论,独立、客观地出具本报告,并对本报告的内容和观点负责。本报告清晰准确地反映了研究人员的研究观点,结论不受任何第三方的授意、影响,研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。
投资者适当性说明
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以民生证券研究院发布的完整报告为准。若您并非民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。
免责声明
民生证券股份有限公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。
本报告仅供本公司境内客户使用。本公司不会因接收人收到本报告而视其为客户。本报告仅为参考之用,并不构成对客户的投资建议,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,客户应当充分考虑自身特定状况,不应单纯依靠本报告所载的内容而取代个人的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。
本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及预测仅反映本公司于发布本报告当日的判断,且预测方法及结果存在一定程度局限性。在不同时期,本公司可发出与本报告所刊载的意见、预测不一致的报告,但本公司没有义务和责任及时更新本报告所涉及的内容并通知客户。
在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据。
若本公司以外的金融机构发送本报告,则由该金融机构独自为此发送行为负责。该机构的客户应联系该机构以交易本报告提及的证券或要求获悉更详细的信息。本报告不构成本公司向发送本报告金融机构之客户提供的投资建议。本公司不会因任何机构或个人从其他机构获得本报告而将其视为本公司客户。
本报告的版权仅归本公司所有,未经书面许可,任何机构或个人不得以任何形式、任何目的进行翻版、转载、发表、篡改或引用。所有在本报告中使用的商标、服务标识及标记,除非另有说明,均为本公司的商标、服务标识及标记。本公司版权所有并保留一切权利。
民生证券研究院:
上海:上海市浦东新区浦明路8号财富金融广场1幢5F;200120
北京:北京市东城区建国门内大街28号民生金融中心A座18层;100005
深圳:广东省深圳市福田区益田路 6001 号太平金融大厦 32 层 05 单元;518026