专栏名称: Dance with GenAI
关于生成式人工智能AIGC的一切
目录
相关文章推荐
清廉蓉城  ·  中国纪检监察报关注成都:居有所安 ·  2 天前  
清廉蓉城  ·  案说规纪法丨公“费”变私肥 ·  昨天  
成都本地宝  ·  成都印钞有限公司/四川电网/高校/街道办.. ... ·  4 天前  
51好读  ›  专栏  ›  Dance with GenAI

海康威视观澜大模型白皮书

Dance with GenAI  · 公众号  ·  · 2024-09-19 09:36

正文

第一章人工智能时代到来

随着历史的推移,人类一直在努力地认识、解读并影响着周围的世界。从最初用石头和棍棒去捕食,到现在利用高级算法去解决复杂问题,我们始终在学习和进化。回首过去数千年的广袤时光,我们可以清晰地感知到,科技一直是推动人类发展和社会进步的核心力量。

在石器时代,简陋石制工具诞生,是人类第一次有意识地作用于自然界,通过改变与环境的交互方式实现了更好的生存,这是人类文明史上的一次重大突破,代表了人类智慧的觉醒,标志着人与自然关系的初步转变。

在农业文明时代,我们不再单纯地狩猎和采集,通过开垦土地、制造农具以及灌溉等方式,初步开始了对大自然的控制,人类的智慧逐渐升华,对自然界有了更为深刻的认识和掌握,人类生活方式和文明观念发生质变。

在工业革命时代,以蒸汽机的发明和电力的应用为标志,人类智慧的运用在更大范围和更高层次上体现,实现了对自然力量的更好掌握,从自然中大规模地提取能量,驱动各种机械,人类社会获得了前所未有的发展动能,生产要素发生了根本性重构,生产力获得大幅提升,时间和空间观念被重新定义,人类全球化和快速进步的章开启。

在信息革命时代,计算机和互联网进一步改变了我们对世界的认知方式,移动通信则重塑了人与人之间的连接,打破了地域和时间的界限,加速了全球经济的发展和信息的传播,极大地提升了人类对于复杂问题的理解和解决能力,标志着人类智慧在认知层面的个巨大飞跃。

而现在,我们正处于另一个历史性的转折点,正在经历并见证一个新的时代。AlphaGo 成为了第一个击败人类围棋世界冠军的计算机程序,在此之前,人们普遍认为围棋的复杂度超出了机器的理解范围,但是 AlphaGo成功打破这一观念,证明了人工智能的强大潜力,不仅推进了围棋研究,更为人们理解复杂系统提供了全新途径。GraphCast作为一种先进的天气预测系统,利用图神经网络技术,更加精确地预测了全球天气系统的复杂变化,对于农业、交通、灾害管理等领域具有重要的意义,能够帮助人类更好地应对极端气候变化带来的挑战。Neuralink通过其开创性的脑机接口技术,在人脑与计算机系统之间建立连接,为人类提供了一个全新的认知和沟通方式,不仅有望为医疗和通信领域带来革命性变革,还预示着人类智慧与机器智能融合的未来,将全面扩展人类的智能。以OpenAI的 GPT系列模型为代表的大模型技术,因其出色的数据分析、自然语言处理和预测能力,能大幅提升各行各业的效率和创新性,从医疗诊断、营销管理、客户服务到内容创作,原有的工作流程和业务模式都因此而改变,更重要的是,大模型技术能有效地整合和分析大量复杂数据,提供深刻的洞见,已经渗透到各行各业,成为高效生产力的助推器和产业变革的新引擎。从复杂系统的模拟,到跨学科技术的深度融合,再到知识边界的扩展,这一切都昭示着,人工智能正在引领我们进入一个全新的革命时代。人工智能时代不仅继承了信息革命的遗产,是所有先前技术革命的综合和提升,还将人类智慧与计算能力结合得更为紧密,重新定义了“智慧”的含义。不再仅仅是人的智慧,机器的智慧也成为了推动社会发展的关键因素。

从石器时代到现在,每一次技术革命都改变了人们与世界的交互方式。在石器时代,作为人类文明的起点,人类第一次使用工具主动作用于自然界,让我们看到,即使是最简单的工具,也有可能引发重大的社会和文化变革。进入人工智能革命时代,我们同样面临-个交互方式的重大改变。人工智能大模型不只是技术的进步,不仅仅是生产力的新引擎,它还囊括了互联网世界的海量知识,是人类智慧的一个集大成者,反映了我们对于模仿、扩展甚至超越人类认知和决策能力的无限追求。正如石器时代的工具改变了人类与自然界的关系,大模型则有可能成为改变人与信息、人与机器、人与社会关系的新引擎,将可能重新塑造我们对世界的认识和与之互动的方式,也为人类打开了一扇通往未知世界的大门,提供了一个全新的方式来认识和改造世界。

1.1人工智能的发展历程

人工智能(Artificial Intelligence)的发展历程可以追溯到上世纪 40-50年代。在 AI-词尚未出现前,物理学家和数学家们就在尝试如何利用逻辑推理来模拟人类智能和利用控制理论来对物理实体进行操纵,这两条路线诞生了人工智能最初两大方向:符号主义(Symbolicism)和行为主义(Actionism)。1950年,英国数学家艾伦·图灵(AlanTuring)提出著名的图灵测试,旨在评估机器是否能够表现出与人类相似的智能。图灵测试成为衡量人工智能进展的重要标准之一。1956年达特茅斯会议召开,大会正式提出了工智能”一词,讨论了如何使用计算机模拟人类智能的问题,标志着AI学科的正式诞生。1957年弗兰克·罗森布拉特(FrankRosenblat)于提出了感知机,这是一种早期的人工神经网络模型,模拟了人脑神经元的工作原理,使得机器能够从数据中学习,并具备非常有限的判别能力。感知机是人工智能第三大方向连接主义(Connectionism)的最初形态,至此人工智能领域的三大流派均以各自的理念开始展开一场跨越大半个世纪的宏大征途。

第一次浪潮:在人工智能的早期发展中,符号主义中逻辑推理和专家系统等技术在启发式推理等任务上取得了一定的成功。符号主义的研究工作在20世纪80年代初达到高潮,诞生了专家系统理论。但是符号主义路线也面临着知识表示和推理能力不足的挑战。随着时间的推移,连接主义和行为主义的发展掀起了统计机器学习、机器人控制等新的技术浪潮,人工智能的研究进入了新的阶段。

第二次浪潮:从20世纪80年代开始,人工智能的研究者们开始强调用统计机器学习(连接主义路线)来实现智能。基于1957年就开始的对感知机的探索经验之上,1986年杰佛里·辛顿(Geofrey Hinton)提出了反向传播算法,这是这一时期的重要理论突破之该算法使得神经网络的训练成为可能。同时,支持向量机(SVM)也在这个时期开始-。得到广泛应用,标志着统计机器学习成为人工智能研究的主流。支持向量机在处理复杂的非线性问题时表现相对出色,在图像识别、文本分类和生物信息学等领域取得了重要的成果,甚至具备了一定的实用价值。人工智能中连接主义路线真正开始从理论走向实践。然而,统计机器学习的发展也面临一些挑战,如维数灾难和过拟合等,其泛化能力不足,不能适应互联网大数据时代。

第三次浪潮:随着对神经网络/感知机研究的深入及硬件技术等的持续提升,2006年深度学习的出现在人工智能领域掀起了一场新的革命。深度学习的核心思想是模仿人类大脑的神经网络结构,通过多层神经元之间的连接和学习来实现智能化任务。通过大量的数据和逐层的特征提取,深度学习模型可以自动地学习和发现复杂模式和规律。2012年,辛顿等人结合 GPU硬件的能力设计出著名的 AlexNet神经网络架构,经过在当时刚发布不久的lmageNet大规模数据集上训练,应用于计算机视觉任务上,取得了令人惊叹的性能优势,展现了深度学习的强大。人工智能有了“数据、算法、算力”三驾马车的拉动,开始加速前行。2016年 AlphaGo横空出世,其融合了连接主义和行为主义算法的思想,利用深度强化学习成功优化了围棋策略,战胜围棋世界冠军李世石,展示了人工智能在复杂领域中的超越人类的能力。

新一代技术:2017年,Google提出基于注意力机制的神经网络结构Transformer,能够高效学习和处理序列数据,在自然语言处理领域引起了巨大的影响。2020年,OpenAI基于 Transformer 训练了 1750亿参数的 GPT-3 大语言模型,在文本生成和语言理解方面展现了极强的表达能力和泛化能力。接着,2022年底,OpenAI基于GPT-3.5大模型推出ChatGPT聊天服务,上线2个月,月活过1亿。2023年,2023年,OpenAI相继推出GPT4 语言大模型和 GPT-4V/t 多模态大模型,标志着人类科技迈向通用人工智能成为可能。我国在人工智能领域,人才技术、算力数据、产业配套等方面都正在如火如茶地发展。大模型领域,近两年已有推出超过百余个大模型,华为、百度、科大讯飞等分别推出了盘古、文心、星火等大模型,整体生态呈现百花齐放之势。

1.2 海康威视的人工智能之路

海康威视成立于 2001年,从研发视频压缩板卡起步,历经二十余年的发展,一步步突破“视频监控”、“综合安防”的业务边界,现在将业务领域定位为“智能物联AIoT”在这个过程中,人工智能技术一直是海康威视的核心技术之一。早在 2006年,面对行业日益增长的视频分析智能化需求,海康威视就组建了算法团队,开始了人工智能算法的研究,并发布了一系列行业智能产品,包括商业的客流统计、交通的车牌识别、金融的 ATM 防护等产品。从这年开始,海康威视在人工智能领域不断加大投入,持续跟踪和实践学界业界的人工智能技术研究。

2012年,随着深度学习技术的进一步突破,海康威视抓住机会,快速布局,研发了基于深度学习的人脸识别、车牌识别、视频结构化、行为分析等技术,率先将深度学习技术落地于行业应用中。到2015年,海康威视在同行业率先推出了基于GPU 和深度学习技术的视频结构化服务器和车辆图片结构化服务器,凭借对AI在视频领域的应用经验及产品集成能力,将搭载人工智能技术的智能化产品快速落地应用,引领了智能安防乃至智能物联产业的发展。

2016年,海康威视研究院团队在ImageNet大规模图像识别竞赛中夺得场景分类第名,并在此后多次夺得 PASCALVOC、KITTI、Momentsin Time 等三十余项国际学术竞赛的冠军。与此同时,在产品端,越来越多基于人工智能技术的产品被不断推出,如海康超脑系列 NVR、海康神捕智能交通系列产品、人脸分析服务器系列产品等。2015、2016约两年时间,海康威视形成了全系列的智能产品家族并持续不断扩展智能产品体系

随着人工智能技术不断进步,市场参与者广泛涌入,AI产业落地成为焦点。海康威视除了在技术、产品端持续发力,也搭建了人工智能产业落地体系。2017年,海康威视发布AICloud 架构,融入了“云边融合”的理念,由“边缘节点、边缘域、云中心”三层架构组成,拓展出将传统信息化、设备设施物联、场景智能物联融于一体的数字化解决方案,为 AI落地应用提供了有益的行业实践。

海康威视面对的行业需求一直都呈现碎片化、场景化、个性化的特征。为了更好满足各行各业用户多种多样的 AI应用需求,2018年开始,海康威视推出了 AI开放平台,致力于帮助零算法基础的客户开发自己行业的智能算法,让各行业从业者拥有专属智能硬件产品和解决方案。2019年8月,科技部授予海康威视AI开放平台“视频感知”国家新一代人工智能开放创新平台的称号,发挥海康威视在感知智能和AI应用方面的优势,促进视频感知技术与产业应用深度融合。随着人工智能与产业融合加深,AI开放平台已经成为了新型基础设施的重要组成部分。在海康威视所在的智能物联领域,碎片化 AI需求日益增长的同时,海康威视也在不断升级AI开放平台,在全面感知、认知计算、大模型基座等领域拓展 AI开放平台的能力,并向外界开放赋能。

不只发力 AI技术、产品,海康威视还在同步强化工程化能力。自 2019年开始,海康威视持续完善AI工程化服务体系,组建专业团队,为用户提供一系列智能方案的落地保障,并通过培训合作伙伴等方式,共同开拓AI在各领域场景的应用。2022年,海康威视AI工程化服务助力打造了一系列智能模型,覆盖作业合规、辅助自动化、仓储管理、物料盘点、门店零售等通用性业务场景,帮助用户有效实现隐患排查、效率提升等业务管理目标。随着AI应用场景不断涌现,截至2023年6月,AI开放平台的企业用户数从8.000余家快速增加到 20.000 余家。

2021年新年伊始,海康威视正式启动了大规模预训练模型相关的研发工作。随着海康威视大模型相关技术的产业应用铺开,千行百业将享受到大模型带来的技术红利。

这篇技术白皮书立足海康威视对于人工智能和大模型发展的认知和实践,探讨如何在物联网世界中更好应用大模型技术,期望依托人工智能和大模型技术,以创新的智能物联应用建设便捷、高效、安心的智能世界,助力人人享有美好未来.

第二章观澜大模型体系

海康威视观澜大模型的名字源自《孟子·尽心上》,所谓“观水有术,必观其澜”“观澜”寓意尽心知命,追本溯源,了解事物的根本。观澜大模型源于产业,用于产业,期望通过强大的智能基础能力,洞察万物的状态和规律,帮助物理世界和数字世界实现更好地链接,推动社会、产业和生活的智能化发展。

2.1人工智能落地应用面临的挑战

在正式介绍观澜大模型架构之前,不妨让我们先回到技术大时代与产业大转型交汇的十字路口,向内审视一下人工智能在行业应用中的问题。

智能产业发展至今,业界普遍认为“数据、算法、算力”构成了人工智能的三大要素。这三大要素共同推动了人工智能第三次浪潮的蓬勃发展,根据IDC统计数据显示,预计2026年,中国人工智能软件及应用市场规模将会达到211亿美元,各行业的需求正大力推进 AI的发展,将推动市场的持续增长。

然而,在人工智能赋能各行各业的过程中,这三大要素均遭遇了一系列的挑战:数据的依赖性:深度学习以大数据为驱动是当前人工智能行业的共识。在行业应用中,下游业务启动前的数据采集往往是比较困难的,同时传统监督式深度学习还需要预先对数据进行精细标定,以上两项会带来高昂的数据成本。

传统深度学习的局限性:深度学习算法优秀的性能已被市场所接受,但随着行业应用的深入,场景变得多元化、复杂化,算法领域面临以下几个问题:

泛化能力不足。例如,一个仅使用白天采集的车辆数据训练出来的检测模型,在夜晚使用时性能就会大打折扣。传统的深度学习往往难以兼顾这些场景差异性,导致不得不为每一个场景量身定制模型。

传统结构出现性能天花板。传统深度学习结构,如CNN、RNN、LSTM等,关注于感知输入信号的局部信息,对知识的容量有限,数据规模和模态种类持续增加带来的边际效益下降。

缺乏推理与认知能力。传统深度学习以监督学习方法为主,其基本原理是训练神经网络来拟合监督标签,无法形成逻辑认知。对于没有见过的新任务或复杂的业务逻辑均需要重标重训或手工排程。

算力的成本问题:模型的训练和部署往往需要大量的存储和计算资源,这也带来了巨大的成本压力。对于许多希望利用 AI技术的企业来说,这样的成本仍是一大制约。

面对以上各种挑战和不足,海康威视大模型技术能够有效突破人工智能产业落地过程中面对的瓶颈。海康威视丰富的的多维感知能力能够帮助行业客户获取更全面、更精细的业务数据,同时大模型通过自监督学习可在无标注数据中学习获取大量“知识”,可有效缓解数据依赖问题;预训练过程本身能够大幅增加人工智能的小样本学习能力和泛化能力;通过感知能力与语言能力的融合,使得大模型具备了强大的理解能力和认知推理能力。我们认为,大模型的这些优点,将进一步推动人工智能技术在产业数字化进程中深入落地应用。

目前,海康威视经过近三年的努力,已经构建了一套完整的观澜大模型技术体系,同时在多维感知、模型精简、大规模平台软件等领域也积累了充分的技术能力,由此构建的产品及解决方案,将能够帮助各行各业的用户快速落地智能应用,提升自身竞争力。

2.2 观澜大模型架构

观澜大模型整体分为三级架构,分别为基础大模型、行业大模型和任务模型基础大模型:基础大模型吸收了海量数据的知识,具有参数量大、高可泛化、性能优异等特点。根据输入模态的不同,基础大模型可分为视觉大模型、音频大模型、语言大模型、多模态大模型等。基于海康威视在智能物联领域的积累和优势,我们还开发了光纤大模型、X光大模型等物联感知领域的基础大模型,提升物联空间的智能感知能力。

行业大模型:行业大模型是在基础大模型的基础上,利用行业数据进一步预训练和微调而成,在针对性行业领域内具有专家级别的能力,进行适当的压缩加速后可在云中心和边缘侧进行推理应用。海康威视现有行业大模型包括电力大模型、公路大模型、煤矿大模型、水利大模型、零售大模型、轨道大模型、工业制造大模型、城管大模型等。

任务模型:任务模型专注于某个具体的场景或业务,是大模型能力落地的重要方式。任务模型的形态多种多样,根据用户不同的需求,基于行业大模型进行针对性的优化工作,使得模型可以在云上部署(较大的任务模型)或边端部署(较小的任务模型),实现云边端一体方案,在各级平台上为客户提供高性价比模型方案。海康威视的特色任务模型包括表计巡检、皮带巡检、商品陈列检测、门店巡检、生产运行异常检测、交通事件检测、收费车型识别、路面病害识别、水面漂浮物识别、施工机械识别、市容秩序巡查、垃圾分类检测等。

2.3 观澜基础大模型家族

2.3.1视觉大模型

计算机视觉是深度学习技术发展的核心领域之一,视觉数据在物联网空间中占到大约80%的数据量。在实际应用场景中,传统深度学习模型往往存在数据依赖和场景泛化等难题,需要多次采集现场数据进行迭代优化,实施成本高且周期长,泛化能力依然局限于数据覆盖的场景。

预训练技术是提升模型场景泛化能力,降低下游任务数据依赖的核心手段。深度学习技术诞生以来,ImageNetCOC0 数据集预训练+下游任务微调一直是深度学习技术应用的主流范式。这是由于预训练时学到了丰富的可迁移特征,能够被不同类型的下游任务广泛复用。

随着任务越来越复杂,场景越来越丰富,百万级规模预训练数据集的模型性能已经难以满足用户需求。同时,受自然语言处理领域大语言模型进展的启发,探索合适的视觉大模型预训练算法,通过进一步放大视觉模型容量、训练数据规模来获得更强的视觉能力成为计算机视觉领域的研究热点。

自2021年以来,工业界、学术界在视觉大模型领域取得了显著的进展,预训练数据集的规模达到百亿、模型训练参数达到百亿。目前已经验证成功的视觉模型预训练方式有三种:有监督预训练、多模态预训练和自监督预训练。有监督预训练的代表性工作是ViT-22B,其使用Google内部构建的多标签图像分类数据集JFT-4B进行有监督预训练,其优势在于学习效率高,是传统预训练方式的直接扩展,缺点在于对标签强依赖,而有标签数据集的构建成本非常高。多模态预训练的代表性工作是CLIP,其使用互联网上爬取的4亿图文数据对,利用图文对比学习的方式进行预训练,其优势在于利用与图像匹配的文本作为监督信号进行学习,降低了对标签的依赖,同时极大丰富了用于预训练的视觉概念数量。自监督预训练的代表性工作是MAE,其使用无标签图像数据进行预训练,不需要任何人工标定的监督信息,最大程度上降低了对标签的依赖。依靠超大规模数据集上预训练的视觉大模型,编码海量的视觉知识,能够非常好地解决场景泛化问题,为通用视觉模型铺平了道路。

海康威视自 2021年初开始投入视觉大模型的研发,视觉大模型方案吸收了自监督预训练和多模态预训练两种方式的优点,从数据治理、模型结构、预训练算法、分布式训练算法等维度进行创新,能够以更小的算力成本、更高的样本效率获得业内领先的预训练性能

数据治理:互联网的公开数据存在数据噪声、数据重复、长尾分布、语义截断等一系列降质问题,会严重影响最终模型的性能,并带来算力的极大浪费。海康威视在视觉大模型探索过程中,通过去重去噪、概念均衡、语义扩充等方式,形成了一套完善的自动化数据治理流程,显著提升了数据质量,最终保留了数十亿高质量样本数据。实验表明,仅使用原始数据规模 20%的高质量数据,相比全量数据获得了超过8%的性能提升。模型结构:大模型的训练稳定性问题是超大规模预训练的核心难点。海康威视将NLP领域的模型结构和训练技术引入到视觉模型中,能够显著改善模型的激活流和梯度流稳定性,并获得更高的泛化性能,从模型结构设计的角度提升了大模型的训练稳定性。

预训练算法:在预训练算法方面,海康威视自研了统一模态学习方案,通过自监督预训练挖掘视觉信号的结构信息,通过多模态预训练挖掘视觉信号的语义信息,同时基于统一解码器引入细粒度监督信息,形成图像级、区域级和像素级的高质量视觉表征,同时包含细粒度识别、精细定位、OCR 等丰富的能力。

目前观澜视觉大模型已经在开放平台、云眸、视频结构化、周界等各类平台和产品中得到广泛应用,并产生了显著的收益。

在内部构造的多行业最多 200张训练样本的泛化任务上,观澜视觉大模型在同场景上的性能上限和跨场景上的泛化性能都有明显提升:其中同场景测试集性能相对提升达18.9%,跨场景测试集性能相对提升达63.8%,体现了大模型的跨场景泛化通用性,业务的逐场景定制需求大幅减少。

再例如对于跨场景泛化性仍然不满足工业应用红线的业务,可以通过提供少量该场景下的标定样本进行微调的方式,快速提升大模型在该场景的性能。下图展示了10个任务上小模型全量样本(4万张以上数据量)训练和大模型小样本训练的平均性能对比。受益于超大规模预训练过程中学习的丰富的可迁移知识,视觉大模型相比业务小模型,仅需要原来 10%以内的数据,就可以在跨场景情况下超过小模型使用全量数据的性能,从而显著降低了模型定制的成本。2.3.2音频大模型

音频是深度学习技术发展的核心领域之一,在实际应用场景中,基于深度学习的算法训练对业务场景数据依赖性高,带来训练周期长,标定成本高,模型泛化性不足的问题。2019年以来,预训练技术在音频智能领域蓬勃发展,其中自监督预训练技术不依赖海量音频标注数据,极大降低了训练门槛。预训练大模型+下游任务微调技术,在语音识别、音频分类等技术领域广泛应用,并取得超过传统深度学习模型性能。2021年微软发布的语音预训练模型 WavLM 在 SUPERB 所有 13 项语音任务测评中超过先前所有模型,在多个语音任务中取得最佳性能。2022年后,工业界、学术界在音频大模型领域取得了显著进展音频大模型训练数据规模达千万小时,模型参数达十亿级,典型模型如 OpenAI发布的Whisper,Google 发布的 USM 等。

音频大模型的优势是,可以支持不同类型语言、不同类型任务,并具备较好泛化能力。随着音频大模型的发展,单一模型多语言识别能力提升明显,比如Whisper 支持近百种语言识别;音频大模型往往支持多个语音任务,包含语音识别、语音翻译、情感识别、语音合成、音频分类等,典型模型如 AudioPaLM、LAURAGPT等,能很好地解决因任务特性不同导致模型结构不统一的问题;音频大模型提供强大的音频信息抽取能力,依托大语言模型强大的推理能力,能更好解决复杂场景开放式音频理解问题,成为当前重要的发展方向。

海康威视自 2022年初开始投入音频大模型的研发,观澜音频大模型设计参数十亿级,训练数据达百万小时,构建了一套完整的数据清洗、治理和标定流程,采用自监督预训练方式和基于 Transformer 的 Encoder-Decoder 网络架构,通过分布式方式优化训练速度,模型训练成本节约 30%。自主训练的音频大模型,在英文识别、中英文自由说识别场景取得显著的性能提升。此外,海康威视基于音频大模型和高质量工业场景数据做SFT训练,发布了工业场景行业大模型,专注音频检测分类领域,目前在电力、能源等设备异常检测场景落地应用。2.3.3语言大模型

人类语言(又称自然语言)具有歧义性、抽象性、语义组合性和进化性等特点,自然语言理解被誉为“人工智能皇冠上的明珠”,理解语言能够帮助机器掌握知识和推理等认知能力。

自 2018年开始,为解决深度学习型需要大量标注数据的问题,自然语言理解全面转向基于预训练模型的方法,其突出特点是充分利用大模型、大数据和大计算以求更好效果。但当时的预训练模型并不能真正克服深度学习模型鲁棒性差、推理能力缺失的问题,在深层次语义理解和生成上与人类认知水平还相去甚远,直到 ChatGPT 出现,使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径。

GPT 系列模型区别于以往的预训练模型,其特性主要体现四个方面:知识压缩、涌现、推理能力以及对齐。其中压缩能力体现在语言大模型通过对海量文本的学习,实现对知识的压缩和整合:涌现则是模型达到一定规模后,涌现出预料之外的能力,模型泛化性大幅增强,数据的边际效应扩大。GPT系列模型实现与人类意图与价值观的对齐,并通过思维链可以释放复杂推理能力,实现智能能力的阶跃。

观澜语言大模型的训练主要分为三个步骤:预训练、有监督微调、基于人类反馈的强化学习。
预训练,教给模型知识。从海量优质数据中抽取出短语(词组或一句话),要求语言模型学会预测接下来的一个词。这种训练模式结合参数规模巨大的 Transfommer 模型,帮助模型积累广泛的知识。海康威视构建以数据质量为核心的数据治理系统,积累数万亿token数量的优质文本数据,覆盖自然科学、计算机、社会文化、经济和教育等多个领域,具备行业一流水平。观澜语言大模型针对特定行业进行重点优化,在通用模型的基础上进行持续预训练,为基础模型注入更专业的行业知识。海康威视自研大模型千卡并行训练框架在 GPU有效利用率上达到58%,具备一流的行业竞争力。

有监督微调,教会模型理解意图。监督微调阶段,数据的难度与多样性是关键,海康威视具备深厚的行业经验,包括行业需求、行业数据以及行业专家等资源,为微调语言大模型提供肥沃的土壤。有监督微调利用行业专家设计的多样行业任务,让模型统一以问答方式来学习完成。问答任务直接可以用“给上文、补下文”方式实现,还可以在上文中加上提示。以翻译为例,除了告诉模型需要翻译的内容外,还要指示模型翻译成哪种目标语言。这一步提示学习完成之后,模型即已博览群书而胸有成竹,又能领会意图而对答如流,已处于基本可用的状态。目前基于观澜语言大模型发展的行业级大模型已经在水利、客服、办公等领域进行落地应用。

强化学习,教会模型反馈择优。语言大模型可能会生成带有偏见、歧视或者令人不适的回答。对于同一个问题,模型能够生成多个不同的回答。海康威视从有用性和安全性角度出发,提升了回答质量排序的一致性,以此训练得到更加稳定有效的奖励模型,然后采用强化学习算法进一步调整语言大模型,使其输出更符合人们期望的回答,达到与人们期望对齐的效果。海康威视在自研语言大模型过程中,始终将安全可靠作为重要标准,在事实性回答、安全内容生成方面,经过强化学习后的模型显著超过提示精调的模型。

2.3.4多模态大模型

观澜多模态大模型在视觉、音频、文本三大基础模态之外,还关联了其它多源异构的模态信息,包括但不限于激光雷达信号、毫米波雷达信号、光纤信号、X光信号等。在统一的嵌入空间中,模型通过对两类或两类以上不同来源的信号模态的融合学习,衍生出用于解决各种基础问题的多模态模型。接下来我们将举例介绍两种观澜多模态大模型技术。图文多模态大模型:图文多模态大模型是在大语言模型的基础上,使用图文多模态数据进行持续预训练,获得视觉感知和视觉认知能力,同时保持在文本任务上的性能。传统的视觉感知模型聚焦于完成从像素到语义的映射,在对视觉信号的解构过程中无法很好地结合人类在各个领域积累的知识。同时,仅基于视觉表观信息的泛化能力容易受到开放世界中对抗性样本的干扰,导致模型鲁棒性不足。图文多模态大模型在大语言模型积累的丰富世界知识基础上,将像素、语义、知识三要索紧密融合,不仅具有很强的视觉认知能力,同时也能获得更鲁棒的视觉感知能力。受益于图文多模态大模型强大的感知能力和跨任务泛化能力,视觉智能业务的应用门槛将被显著降低:用户只需要提供图像,并根据自身的业务需求调整输入的指令,模型即能够根据指令实现对图像的理解,利用感知到的信息端到端地完成用户的需求。

海康威视对于图文多模态大模型的投入较早,积累较多。有丰富的多模态训练数据,并完成了相关能力的验证,成功观察到图文多模态大模型的缩放定律和部分视觉认知方面的能力。

雷视多模态大模型:在智能交通领域,海康威视利用毫米波雷达和高清摄像机,积累了数百万段雷视感知片段,并构建了同时感知空间物理信息与图像语义信息的雷视融合大模型。该模型具备超远距离的感知能力和超过 95%的高精度车流轨迹探测能力,已在雷视电警、雷视车检器等数十款交通产品中广泛应用。相较于视觉或雷达单一模态的模型,雷视多模态大模型通过提取多维信号中的有效信息,挖掘不同模态信息间的潜在关系,增强了对物理世界的全面理解。雷视多模态大模型分别利用图像编码器和点云编码器对多帧图像、雷达点云提取特征,再通过融合解码器将多帧图像特征和点云特征融合,获得目标的语义信息与物理信息,从而输出图像像素坐标、物理空间坐标、速度、类型和轨迹等。

为了充分发挥大模型的优势,海康威视分别打造了路端和车端部署的真值系统,可在真实生产环境中持续积累高精度、高质量的点云数据。与此同时,海康威视在云端构建起一套面向四维数据的自动化标注流程,可以为雷视大模型源源不断地提供真实、海量的多模态数据。在极大提高真值精度的同时,大幅降低标注成本,从而形成了端云协同发展的高速飞轮。

此外,不满足于单一雷视设备的应用,海康威视还基于组网的多雷视设备,构建了覆盖完整路口路段的多模态、多设备、跨时段的路网感知大模型,有效降低单一视角引起的遮挡、透视、局部过曝/过暗等不利环境因素影响,进一步提高全域感知能力和系统鲁棒性,可以在新一代交通数字孪生系统中提供核心的感知能力。

2.3.5 预测大模型

预测大模型基于海量物联数据,学习多样的回归、分类模式,能够为企业生产、交通、能源、自然资源等各个领域提供精准的状态预测、异常检测和决策支持。

伴随着IoT设备的快速增长和感知处理能力的发展,海量的物联数据能够以结构化的形式存储起来,并与业务系统的表格数据逐步融合,形成多维序列数据。该类数据具有顺序性、季节性、趋势性、突变性,以及多序列关联等特点,其本质上反映的是变量随时间、空间不断变化的趋势和规律。预测大模型通过深入理解回归、分类的本质,挖掘数据中的潜在模式和规律,构建物联背景下通用的预测能力,持续提升数据价值。

预测大模型基于 Transformer 的 Encoder-Decoder 网络架构,利用自回归、序列重构和对比学习等技术进行大模型的预训练。针对不同领域多维序列数据量纲类型、序列长度、采集频率等差异巨大的难题,设计数据对齐方法,使预测大模型更好地适应不同领域的序列数据。设计多种数据增强的方式,使预测大模型能够学习到不同的序列分布情况和变化模式。预测大模型利用少量类别、数值等标签信息进行有监督的微调,在多种预测任务上实现有效泛化。海康在智慧交通、智能制造等多个场景中持续打磨预测大模型,呈现出良好的应用前景。

2.3.6光纤大模型

光纤传感利用光纤为传感介质,利用光波特性探测进行信息获取,具备4大优势,特别适合于特殊环境下的信息获取。光纤传感大致可以分为两类,一类是以光纤干涉结构和光纤光栅为主要代表的“点式”光纤传感,已在航空航天、海洋水声、桥梁大坝大型建筑的健康监测领域得到广泛应用;另一类是分布式光纤,利用连续分布式散射效应,可以像神经系统一样准确测量光纤任意位置的参量在时间和空间的信息分布,具有独一无二的信息获取能力,克服了点式传感技术难以进行空间连续监测的缺陷。

海康威视围绕光纤传感布局,通过光纤传感可以捕捉到温度、振动、声音等数据,具备良好的环境适应性。预训练大模型能够抽取多维信号的统一特征表示,提高模型的泛化

能力,减少对大量标注数据的依赖。海康威视拥有近千万条高质量光纤数据,通过异常过滤、缺失值补全、无监督去噪等方式,构建了一套完善的数据清洗流程,开发了自动化数据清洗工具,显著提升数据质量。观澜光纤大模型采用基于 Transformer 网络的编码-解码器结构,编码器负责信号理解,捕捉时序信号的上下文依赖,形成事件级、片段级的高质量信号表征;解码器引入细粒度监督信息,负责时序信号生成,通过自监督预训练挖掘多维信号的结构信息,具备音频事件检测、定位等能力。

目前观澜光纤大模型仅需传统深度学习模型10%的数据量,就可以快速完成场景适配和部署,在多个内部测试集上平均准确率提升超13%,并在钢铁、煤炭、电力等行业中落地应用。

2.4 观澜大模型实践优势

2.4.1全面的感知能力,获取丰富的模态数据

全面的感知能力是物理世界通往数字世界的桥梁。海康威视构建了包括可见光、热成像、雷达、X光等电磁波,声波、超声波等机械波,以及多种物理传感技术的全面感知体系,助力打造了具备多维感知能力的大模型。例如在光纤传感领域,观澜光纤大模型基于千万级高质量光纤传感数据,实现工业设备异常问题高精度检测和智能诊断;在雷达传感领域,观澜雷视大模型融合了雷达和摄像机的感知能力,具备全天候、超远距离的车辆和车流轨迹探测能力。

海康威视在智能物联领域具有 20多年的积累,为了满足更多行业用户的智能化需求,我们面向交通、电力、钢铁、煤炭、安检等诸多垂直行业,结合高质量的领域数据和领域知识,打造行业大模型。海康威视在海量数据上进行了大规模预训练,生产基础大模型,吸收通用知识,再加入行业数据进行微调生产行业大模型,在保留了基础大模型的高泛化能力基础上具备了专业的行业能力。“预训练基础大模型+行业微调”的开发范式大大提高了 AI模型开发的效率和跨场景泛化能力,构建了领先的行业应用能力。例如在周界防范业务中,以观澜视觉大模型作为基座,利用高效微调技术生产行业模型,整体误报率降低了 95%。

观澜大模型针对海康威视丰富的云边端产品线,构建了包括模型精简、蒸馏在内的完整的硬件部署技术体系。自研模型精简技术,同结构大模型压缩后部署对比16精度部署,可实现资源占用15倍以上高效压缩,实际推理加速达到10倍以上。自研蒸馏技术,可实现大模型向端边缘小模型的有效知识迁移,该技术在AI开放平台中上线,可将小模型与大模型的性能差异平均缩小 50%以上。以面向企事业用户场景的部署为例,海康威视提供边缘、云端及云边融合三种大模型部署方案,以满足不同行业和场景中用户对于推理模式、系统规模等多样化需求。同时,海康威视提供行业应用平台和云眸的开放接口,便于企业或合作伙伴的集成应用。

2.4.3.1边缘部署,满足高实时性的场景应用

边缘部署是一种将大模型及小模型部署在边缘端设备(如智能分析服务器、智能NVR等)的不同性能的GPU或其他AI处理器上,并利用这些设备的计算资源进行推理的方式。这种方式具有以下优势:

首先,针对部分边缘端智能设备计算资源有限,无法直接部署大模型的问题,海康威视通过蒸馏技术手段,将大模型的知识部分迁移到小模型上,这使得小模型能够顺利部署至此类智能设备上,降低了大模型的使用门槛。

其次,由于数据无需传输到云端,因此可以保护用户敏感信息,有效保障数据的安全

性。

最后,由于大模型及小模型直接部署在边缘设备上,可以有效克服网络传输延迟和带宽的限制,实现快速响应和高效处理。

边缘推理尤其适用于数据敏感性、实时性要求高的应用场景,已经在制造、能源、电力、煤矿等行业得到广泛应用,并取得良好的应用效果,

2.4.3.2云端部署,降低智能应用的推理成本

云端部署是一种将大模型部署在海康云眸 AI推理集群中,借助云计算平台的强大计算能力完成处理数据和计算任务的方法。这种技术的优势在于利用云计算平台的规模效应和资源共享,从而降低推理成本。

在云端部署方案中,高清摄像机用于抓拍现场图片,这些图片随后被上传至部署大模型的云眸上,利用云计算平台的强大计算资源,可以对这些图片进行智能化分析。云端部署适用于数据敏感性和实时性要求较低的联网场景。

2.4.3.3云边融合,提供场景智能的更多选择云边融合方案整合边缘端和云中心的部署的特点,并充分发挥海康威视的产品优势和云端 Saas 应用能力。

首先,通过利用设备端小模型的实时视频流分析能力,可以提高目标检测的准确率;同时,借助云端大模型进行二次分析过滤,可以降低误报率,满足用户对识别对象的高检出率和低误报率的双重要求,并提供持续的视频分析能力。

其次,借助云端 AI算法编排能力,可以减轻边缘端设备的性能压力,使其能够适应更多的应用场景;同时,云端编排逻辑部署便捷,无需对设备进行固件升级,进一步简化系统维护和升级的流程。

最后,通过与第三方业务数据和平台己有模块的业务联动,云端AI逻辑引擎能够响应更多的业务需求,为企业提供更加灵活、高效的解决方案。

云边融合具备低延时、高实时、经济性等特点,能够满足连锁、制造、电力、煤矿、商业、教育教学、建筑等众多行业的智能化应用需求,为场景智能应用提供更多的选择。无论是云端部署模式还是云边融合部署模式,SaaS服务平台都是其中的核心应用。云眸是海康威视自研的 SaaS 云服务管理平台,始终以用户需求为核心理念,深度挖掘业务需求,致力于成为“大连锁”场景的运营管理专家。为了实现这一目标,云眸提供丰富的物联场景应用,并在连锁行业中得到广泛应用。截至2023年底,海康云眸已经成功接入超过490万路终端设备,每日接口调用次数接近1亿次。同时,海康云还为超过1000万户社区业主、1050 万师生家长、45 万家物流网点以及37万家连锁门店提供服务。

2.4.4 完善的工程化能力,赋能大模型快速应用

随着碎片化 AI需求的日益增长,自2019年开始,海康威视持续完善从业务调研、方案设计、算法实现到实施交付全过程覆盖的AI工程化服务体系,为用户提供一系列智能方案的落地保障,并面向合作伙伴开展赋能。其中,如何更快速地响应定制化算法实现需求,缩短落地周期是 AI工程化的“关键因子”,为此,海康威视构建了 AI开放平台。

平台构建了数据采集,数据标注、模型训练、硬件适配,设备推理、业务应用的AI落地全流程能力,致力于帮助零基础用户开发自己行业的智能算法、帮助广大 AI从业者拥有智能硬件产品和解决方案,助力产业智能化转型升级。

2.4.4.1海康威视 AI开放平台技术架构海康威视 AI开放平台以观澜大模型为技术底座,通过高性能基础设施和完善的服务能力为文撑,赋能千行百业。

2.4.4.2 大模型推理能力开放海康威视 AI开放平台面向工商企业、住宅建筑、医疗卫生、智慧交通等数十种行业,开放了50+的场景 AI推理能力,用户可直接在平台上体验和下载使用,实现了大模型能力的“开箱即用”这些任务模型不仅保留了基础大模型的高泛化能力,在行业数据的融合下,在特定场景表现出更加专精的能力。如平台开放的工地安全穿戴识别算法,大模型的效果对比传统小模型有着十分明显的提升。同时,部分用户在行业场景下兼具一些个性化的需求,AI开放平台也提供了模型迭代的功能,用户可在已有的任务模型的基础上,添加少部分的场景数据,通过迭代训练获取更加符合自身业务场景的迭代模型,来应对更加复杂的个性化需求。

2.4.4.3基于大模型的自定义算法训练

除行业性需求外,相当一部分客户还有着完全个性化的业务需求,此类需求有着“千人千面”的特征,每个业务场景都需要根据具体需求定制生成AI算法。因此,海康威视AI开放平台提供了基于大模型的自定义算法训练能力,平台预置了16种建模场景,基于观澜大模型的技术底座,以“预训练大模型+场景微调”的训练模式,AI开放平台的训练启动数据量可降低 90%以上,并且平均算法精度也提升了50%以上。这意味着用户只需少量的样本输入,即可生成高精度的算法模型,在降低AI落地成本的同时,也提升了AI应用的效果和效率。如通过平台自定义训练出的各类场景识别算法,在效果上有极为显著的提升。2.4.4.4多样的训练模式

超高精度训练模式:基于观澜预训练基础大模型,结合用户场景数据共同训练得到的超高精度的大模型,最大程度地保留了大模型高泛化能力。并目,通过海康威视自研算软硬协同优化方案,超高精度的大模型已支持近十款国产高性能芯片。蒸馏训练模式:通过自研的蒸馏技术的高级训练方式,实现大模型向端边缘小模型的有效知识迁移,将大模型良好的精度水平和强大的泛化能力,快速迁移到小模型中。在资源消耗跟传统模型一致的前提下,将小模型与大模型的性能差异平均缩小50%以上。通过海康威视持续的芯片适配和深度优化,蒸馏模型已支持海康威视大部分边端推理设备第三章观大模型内部实践

作为行业内最早一批布局AI的科技企业,海康威视既是行业智能化解决方案的提供者,也是实践者。海康威视持续运用自主研发的AI技术推进公司不同环节的智能化升级,并将自身的经验以产品化的方式输出,帮助更多行业数字化转型。

海康威视所处的智能物联行业,应用需求高度碎片化、场景化,如何在满足个性化需求、形成场景化解决方案的同时,更规模化、快速地响应客户需求,是对所有行业参与者的挑战。要管理海康威视这样一个业务遍布全球、客户需求高度碎片化的科技公司,可以说是一项复杂的“系统工程”

为了将这个复杂的体系高效运营起来,二十余年来,公司努力在研发、制造、营销等经营管理的各个方面,持续提升自己的能力。如今,观澜大模型的构建,带来了新思路新路径。近年来,海康威视持续对内探索场景与实践,把自身作为大模型落地应用的“试验田”,已将观澜大模型应用于公司的不同业务环节中,提升经营管理综合能力,为向客户持续提供优质的产品和服务,构建了更坚实的技术保障。以下重点就观澜大模型在海康威视的产品研发、生产制造两大环节的应用情况做进一步介绍。

3.1观澜大模型助力产品持续创新

海康威视从生产视频压缩板卡起步,不断将通用技术(硬件技术、工艺材料、嵌入式软件、系统级软件开发、大数据技术、网络安全等)与场景化应用技术进行组合、融合和集合,以实现产品创新,形成了从探测器、模组、设备到系统的完整产品体系。目前公司在售硬件产品型号已超过3万个,软件产品200多款。当前,观澜大模型的能力已深入融合到海康威视的产品创新和实际应用当中,拓展模型能力边界,提升智能产品性能,加快 AI落地部署应用。

3.1.1 提升产品性能,增强产品竞争力

海康威视在产品研发中,利用大模型小样本学习能力强、泛化能力强、性能上限高等特点,不断推出准确率、检出率更佳的算法,帮助提升产品性能,增强竞争力。

以应用范围最广泛的视觉 AI为例,观澜视觉大模型在数据治理、模型结构、预训练算法等方面进行了深入研究,相比传统小模型,大大提高了感兴趣目标的检出率和检准率,降低误报,在海康威视AI开放平台、海康云眸等平台中广泛部署。在海康威视内部构建的多个跨行业的泛化任务上,大模型带来的平均性能提升超过50%,可支持响应更多复杂的业务需求 ,在智慧城市管理、智慧社区管理、自然资源保护等场景中取得广泛应用。与此同时,观澜大模型进一步提升了海康威视产品体系的智能感知能力,为不断开发新品、丰富智能物联产品矩阵提供了技术支撑。例如,在雷视产品的研发中,海康威视构建了具备同时感知空间物理信息与目标语义信息的雷视多模态大模型,让雷视产品得以突破昼夜以及雨雾环境下的性能极限,并实现规模化的产品落地。海康威视研发的“超远距离雷达+多日长短焦视频”雷视一体机,具备超远距离车辆和车流轨迹高精度探测能力,并形成了系列产品方案。雷视融合产品在检测距离上的突破,可大幅降低数字化道路的建设成本,提升交通拥堵治理、交通安全保障、车路协同的能力。3.1.2提升落地部署能力,加速AI工程化进程

千行百业对 AI的需求海量而碎片化,没有标准化通用的解决方案,每个细分场景的需求满足往往都需要定制化的开发,而在传统深度学习算法开发过程中,存在数据采集困难、算法泛化性能差等问题,算法开发周期往往以季度计,无法满足AI快速落地的需求。海康威视基于观澜大模型打造了“预训练大模型+场景微调”的算法开发范式,可显著降低对场景训练样本的依赖,并大幅缩短从数据收集到算法部署的全过程,使开发效率更

高、落地周期更短、跨场景泛化能力更强,高效地支撑行业应用。首先,观澜大模型可降低90%的训练启动数据量,有效缓解数据采集难的问题;其次,针对这部分训练数据,还可应用观澜大模型的智能标注能力,只需要对智能标注后的数据进行复核,即可发起训练,进一步缩短了开发过程中的数据标注周期;最后,场景微调的模式无需从头开始训练,即可获得满足不同场景需求的模型,大大降低了训练时长同时,基于预训练大模型训练出的任务模型,具备更高的泛化能力和推理认知能力,可兼顾不同场景的差异性,并保持较高的识别精度。这意味着一款开发出来的AI产品在不同场景可长期保持良好的识别效果,可避免频繁的重标重训,降低模型迭代次数与成本。相较于以往动辄几个月的产品交付工期,基于观澜大模型进行开发,可使开发周期缩短约80%。

以海康威视推出的光纤传感产品为例,光纤信号处理和解调难度高,如何在这些复杂的信号中准确识别微小的信号变化,如何通过信号变化准确反演外界真实场景,实现高准确度的异常诊断,是研发人员需要重点攻克的难题

常规的信号解调和处理方案,信噪比低,整体效果较差,需要大量的模型校准调优工作,研发过程漫长。而结合基于千万级光纤传感数据的光纤大模型后,可以降低产品对信号解调质量的要求。同时,在应用落地阶段,可有效降低用户数据量要求,数据采集工作量降低 90%。此外,光纤大模型融合了多种复杂场景下的特征信息,单一模型可兼顾不同场景差异性,实现用户现场快速部署。3.1.3总结与价值

大模型的积累与发展,为海康威视的产品创新打开了新空间。基于观澜大模型,海康威视将持续锤炼产品的研发、落地能力。在大模型的加持下,更多引领行业的新产品将不断被研发面市,更快速地产品迭代将不断满足用户的发展需求,比以往更高效便捷的 AI落地部署将加速行业智能化变革。这些因创新而生的智能物联产品,将深入到千行百业成为AI生产力工具,助推数字化转型的发展浪潮:

3.2观澜大模型助力生产制造提质增效

海康威视智能制造基地(以下简称制造基地)承担着公司面向全球的产品制造与交付,由于智能物联市场高度碎片化,制造基地生产的产品种类达数千种、型号数万种、订单定配置比例高达 75%,形成了“小批量、多批次、大规模定制化”的生产制造模式。这种生产模式能更好地满足客户个性化的定制需求,但也出现了产品订单小而零散、产线频繁切换等情况,对组织生产、管控产品质量、控制成本等都带来了管理挑战。统计数据显示,海康威视一天大约需生产10000个订单,但每个订单平均仅 40台左右。由于这种生产模式对企业生产、管理提出的严格要求,只有不断提升制造基地的柔性化、智能化水平才能更好满足市场需求。

多年来,制造基地逐步构建了全流程有效协同、敏捷精益的大规模定制智能制造新模式,保障了高可靠性、高可用性、高可控性的产品交付。为不断提升自身智能制造能力,制造基地利用观澜大模型的能力,落地了面向生产的全链路解决方案,为从业人员提供智能、精准、快速的新工具和新方法,提升了生产交付效率和客户满意度。3.2.1计划排程:精准制定计划,提升生产效率和资源利用率

在生产计划制定过程中,针对海康威视多品种、小批量的业务模式,传统的计划作业方式往往难以有效应对迅速变化的市场需求。引入观澜大模型的预测能力后,通过综合考量产品的历史需求和变化趋势、内外部不同产品之间的影响关系以及不同区域的需求差异等多维度的影响要素,对各种物料需求进行更精确的短中长期预测。基于该预测结果,并结合行业最佳实践提取形成的工业机理模型,对生产要素进行全面分析和深度优化,实现大计划的有效制定、备货计划的实时调整、原材料的采购优化、产能计划的动态调整、区域仓物料的选型和调拨,最终制定出较为完善的排程方案和生产计划。







请到「今天看啥」查看全文