专栏名称: 产业智能官
用新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
目录
相关文章推荐
中国航务周刊  ·  这家货代巨头,与大货主成立合资公司 ·  5 天前  
中国航务周刊  ·  MSC又在中国船厂订造8艘超大船 ·  5 天前  
51好读  ›  专栏  ›  产业智能官

深度解析物联网和大数据分析的渊源和应用

产业智能官  · 公众号  ·  · 2018-11-12 01:10

正文


最近很多人跟我讨论物联网和大数据,但他们大都还对这两个技术分类认识不是很清晰。在这里我结合我们的一些案例对这两个概念做一些阐述。

物联网是一个完整的概念,不仅包括远端的传感器数据采集、传输、存储和展示,还包括对采集的传感器历史数据的分析,以及基于分析结果所产生的决策、反馈和控制动作。相对于传统的人的认知方式,物联网相当于增强了人的“五官“的识别能力,使人能够获取到原本很多无法直接获取的信息。而基于物联网的数据分析,则相当于增强了人的”大脑”的感知能力,让人能够摆脱传统思维的局限性,实现更多维度、更全面的、更实时的认知和判断能力。

通常意义上的大数据,指的都是对批量数据的计算。由于原本的存储和计算能力有限,最近十年陆续发展出了一系列包括Hadoop、Spark在内的新技术,用以高效、实时的处理海量的数据(批量数据为主),而在此基础上,将原来的一些处理小数据集的数据挖掘技术,同大数据结合起来,实现对很多业务系统数据(批量数据为主)的分析,比如针对不同标签的群体的分类和画像,并进行精准营销。而随着实时性的提高,最近几年流式计算和分析也被提到了一个更高的层次,来处理时时刻刻都需要分析和处理的、带有时间标签的数据,如物联网数据或日志数据。

如大家所见,这两个看似毫无关联的技术,是可以通过数据(一个产生数据,一个处理和分析数据)紧密的联系在一起的。

区分IoT、IIoT和工业大数据

需追根溯源

在进一步阐述之前,我需要帮大家区分几个概念。

  • 首先区分传统物联网和工业物联网

传统物联网主要针对消费者以及智慧城市等,通过增加众多分散广泛的传感器采集和传输实时数据,构建实时监控、展示、告警和历史数据查询的能力;而工业物联网,则主要指的是通过采集现有工业设备的控制系统数据(很少需要增加传感器),在监控告警的基础上,通过深入的数据分析,找到提高设备可靠性、降低异常、提高生产和运营效率的途径。

传统物联网的数据分析,和我们在互联网上的流式数据分析,区别不大,通过单一指标的处理,产生相应的时间窗口内的平均、极值等计算量,并进行批量计算和展示。

  • 再区分工业物联网和工业大数据

在国外很多厂商和媒体上,并没有工业大数据这个概念,更多是将其合并在了工业物联网(IIoT)的范畴,而国内则将二者当成两个不同的类别,同时,还将二者连同诸如生产和供应链系统等,统统融入到工业互联网的概念中去。所以,我们可以看到包括Gartner在内的国外分析机构,并没有专门针对工业大数据或者工业互联网的分类,而有很细致的IIoT的分析。

传统的工业里面,并不是没有数据处理。但是原本的数据采集、数据处理、数据分析和反馈,都是分散在不同系统里面,一方面无法处理海量的工业“大“数据,另一方面也无法保证实时性。我们经常看见工业企业里面,很多数据分析人员被迫从不同的控制系统中手动导出一些数据文件,通过手工的方式进行交叉关联和标注,并编写相应的Matlab程序实现统计分析和建模,然后再提取一些现场数据进行验证,条件好的企业,还会请一些外部的合作伙伴将其开发成应用。这种处理和分析的效率实在是很低下,但确实是一种普遍现象。

工业物联网和互联网大数据

分析大不同

工业物联网的数据分析(工业物联网+工业大数据),同传统的互联网大数据分析,有很多不一样的地方。

数据属性不同

1

数据量巨大

工业数据的“量”,需要从几个方面来考虑:

  • 数据维度多

传统的物联网,由于通常多是相对独立的传感器,而每个传感器上的数据点往往都是个位数,因此数据维度很少。

对于工业物联网来说,复杂的生产都是多个过程相互关联、每个过程又是多维度数据集成的过程。

这里所说的数据维度囊括了生产过程中各种设备特征、外部工况、参数、材料和工艺配方等相关因素。这种维度的数量级往往是成千上万,在很多高端自动化生产(如半导体)的过程中,数据维度都达到了千万级别,而其中任何一个过程的任何一个变量的变化,都有可能对最终生产的结果产生蝴蝶效应。

  • 采样频率多样化

传统物联网的数据采集间隔通常都是秒级、分钟级别,相对比较固定。

工业设备数据的采样频率的跨度非常大,一个设备的不同指标可以有上千倍的差别。对于设备故障诊断常用的电流、振动加速度传感器指标,往往需要10KHz以上的采样频率,而一些状态变化,往往只需要几秒甚至几十秒才采样一次。

  • 数据时间跨度大

长期的数据保存,对于积累在不同状态下的特征判决,非常有帮助。

传统的物联网对长期数据的保存需求不是很明显,没有太多“状态性”(Stateless)的需求。

但是工业物联网,对基于状态(Stateful)的数据分析,需求非常强烈。

首先,在传统的工业领域,对于设备状态、控制门限、关键参数的设置,往往都是通过厂家或者运营人员的经验值来去设置和调整,这个值是否正确,是需要经过长期的数据验证的;

其次,工业设备的电流、功率、扭矩等指标,在不同工作模式、工况条件、故障状态下,往往都存在明确的不一样特征。而这些特征,如果能够被保存下来,通过机器学习来训练特征识别模型,将有助于实现精准的状态判决、异常检测和故障诊断。并且,通过不断累积类似相同标签的数据样本,将有助于增强识别的准确性。特别是一些可靠性很高的关键设备,因为故障的成本很高,更需要保存异常或者故障的特征,并通过部件之间、子系统之间以及设备之间特征的组合分析,来进一步提高可靠性。

2

实时性强

通常大家都认为工业数据的实时性会很强,但这往往指的是工业控制的实时性,而不是工业数据分析的实时性。

传统的工业数据分析,往往是通过在控制系统或者软件系统中截取一段数据,保存成文件,通过分析人员编写一段代码(如Matlab)和模型,在实验环境中进行测试和验证,再开发相应的控制逻辑或者应用程序,通过实时接收来评估开发的模型,在运行的过程中不断调整模型的参数。这个过程是非常痛苦的,不仅仅是因为数据的来源和分析是脱节的,更是因为在模型开发的过程中需要实时数据的验证是没有办法在现有环境中实现的。

而理想的工业数据分析,就应该是一个高效实时的过程。它可以从实时的工业数据中截取有效的数据样本,基于不同的开发语言和模型框架,开发特定的算法和模型,并基于实时采集的数据进行验证,然后将验证的结果同真实的实时数据流结合起来,实现实时的判决。只有这样,才能形成针对具体场景的智能分析和控制。

3

数据质量差

工业数据质量差是工业数据的典型特点。

工业的专业性特点,导致大型设备往往是来自多个不同厂家的子系统的大集成。而主机厂往往并不了解每个子系统的工作原理,并没有形成一套完整的、跨子系统的控制逻辑和数据整合机制,因此只能从其中挑选一些关键的控制信号,实现既定的控制逻辑,而不会去关心每一个子系统的工作原理,包括各种有助于实现可靠性、效率乃至质量分析的非控制用指标。

  • 一方面,工业设备生产厂家虽然都声称能够达到各种指标,但他们往往只能保证关键控制指标的完整性,而不能保证子系统关键指标的精度和可靠性;

  • 另一方面,由于没有很好的数据整合机制,往往无法识别不同子系统的工作状态,而给后期针对不同工作状态的数据分析造成巨大的障碍;

  • 第三,来自不同子系统的整合,往往会出现时间标签不统一、数据量程不对、数据标签错误等常见错误,甚至在出现问题的时候,主机厂都无法解释子系统的指标意义;

  • 同时,由于现场环境的恶劣条件,往往会造成传感器数据失效,或者长期处于不准确状态;

这些数据质量问题,都给后期的数据分析造成了巨大的障碍,在分析之前需要做大量的清洗和处理工作。

数据分析方法不同

一提到大数据分析,很多人都会自然想到通过海量数据的聚类、分类、挖掘,来实现精准营销、用户画像。

但是,这些互联网或者业务系统的数据,都有一些显著的假设条件,即数据量大、数据可以清晰的标签化、标准化场景多、分析的准确性要求不高。通过一系列的分类、挖掘,可以找到不同样本之间的共同特征,针对有相似属性的不同个体的训练结果,来推测具备相同或者相近属性的个体的特征。

1

工业数据分析挑战

但是在工业数据分析,这些假设条件基本都不存在,数据分析面临更多的挑战是:

  • 小样本

工业的异常现象往往会非常少,或者在单一设备上发生的概率非常低,这就造成无法使用常规的大数据、机器学习的方法,根据采集的异常数据特征,去训练稳定的故障模型;

  • 过拟合

根据大量相关因素,通过机器学习在特定数据集下所训练出来的模型,即使经过了大量的测试数据的验证,变现出很完美的拟合特征,但是在真实环境下,由于数据和工作状态的多变性,往往也很难取得长期稳定的判决结果,即出现“过拟合”的情况。

  • 难以准确清晰的标注

工业的数据,即使出现了一些可以提炼的特征,但是这种特征往往是跟不同的工况或者工作模式紧密相关(如振动传感器振动幅度的高低,在设备轻载或者重载下完全不一样),如果没有办法区分出异常特征的标注条件,也很难实现有效的数据过滤和分析;

  • 场景碎片化

工业的场景非常碎片化,很难有通用的模型,即使有一些类似电机、泵的故障模型,以及振动分析、SPC这样的通用分析方法,在不同类型的设备上,甚至在同一类型的不同个体上,都很难保证统一稳定的运行。

这些挑战,都会造成工业大数据分析,不可能完全采用互联网大数据的分析方法,而是需要充分结合工作机理,实现复合型的建模和判决。

2

工业数据分析分类

通常意义上工业物联网的数据分析,可以分为如下四个类别:

  • 描述式分析(Descriptive):对采集的物联网数据进行统计和展示,这部分以统计分析为主;

  • 诊断式分析(Diagnostic):结合工业机理,对异常产生的原因进行诊断分析,这部分需要加入很多的数据挖掘技术,包括相关性分析、序列事件分析等;

  • 预测式分析(Predictive):通过长期历史数据的发展规律,预测趋势的变化,这部分需要引入包括机器学习、神经网络等技术,对趋势进行预测;

  • 处方式分析(Prescriptive):通过多个维度的数据分析的结果,结合知识库和机器学习,给出多种决策依据的可能,并提供智能的判决支持;

在每个类别里面,又必须从两个层次来展开分析:

  • 机理分析:根据物理或化学的原理,对工业设备的控制、过程以及产生的响应进行基于设计原理的专业分析,这部分一定是以专业知识为依据的;

  • 数据驱动的分析:对于工业里面很多无法测量,无法解释的现象,可以通过提取数据特征,从海量的数据中寻找异常点,通过机器学习的方法,弥补专业知识的不足;

可以看到,工业数据分析的基础是工业机理,也就是专业工业知识的了解,而不是数据分析的方法和能力。没有充分的工业机理和专业知识,盲目的将一些大数据、人工智能的工具对工业数据进行分析,一定会适得其反。

应用场景融入工业三大层

起巨大作用

我们都知道,互联网大数据的应用场景包括基于用户画像的精准营销、海量结构化的决策支持等。那工业物联网的数据分析,可以应用到哪些场景中呢?







请到「今天看啥」查看全文