工业互联网正确打开方式系列(八):工业大数据
工业互联网正确打开方式系列(一)
:RPA机器人流程自动化
工业互联网正确打开方式系列(二)
:AI产品经理
工业互联网正确打开方式系列(三)
:微服务 VS ESB
工业互联网正确打开方式系列(四)
:边缘计算
工业互联网正确打开方式系列(五)
:云计算PAAS
工业互联网正确打开方式系列(六)
:两化融合
工业互联网正确打开方式系列(七)
:工业物联网
产业智能官:工业大数据方法论——李杰教授提出的解决问题的3A理论:Algorithm(算法)、Analytics(分析)和Application(应用)。由此,推导实践出以下工业大数据实施方法论:
通过应用-分析-算法的思路来解决实际业务问题:
1.从应用场景的角度出发,定义商业价值的GAP(即需要解决的问题带来什么价值),
2.场景中分析具体业务问题,并数学建模,
3.最后选择用什么样的算法,对模型进行求解。
备注:现在有了AUTOML,即特征处理、算法优选、模型训练、参数调优等自动化。待其技术成熟,略懂技术的业务人员也能做工业大数据应用。
以下内容由产业智能官整理学习使用,商业用途请联系作者本人和公众号。
工业大数据参考框架,包括应用范围、典型运营模式、数据架构、技术架和平台参考等。
工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。
工业大数据的主要来源有三类:
◆ 生产经营相关业务数据
:来自传统企业信息化范围,被收集存储在企业信息系统内部。此类数据是工业领域传统的数据资产,正在逐步扩大范围
◆ 设备物联数据
:工业生产设备和目标产品在物联网运行模式下,实时产生收集的涵盖操作和运行情况、工况状态、环境参数等体现设备和产品运行状态的数据,这是工业大数据新的、增长最快的来源
◆ 外部数据
:与工业企业生产活动和产品相关的企业外部互联网来源数据
1.在智能制造标准体系中的定位
工业大数据位于智能制造标准体系结构图的关键技术标准的左侧,属于智能制造标准体系五大关键技术之一。
2.与大数据技术的关系
工业领域的数据累积到一定量级,超出了传统技术的处理能力,就需要借助大数据技术、方法来提升处理能力和效率,大数据技术为工业大数据提供了技术和管理的支撑。
工业大数据可以借鉴大数据的分析流程及技术,实现工业数据采集、处理、存储、分析、可视化。工业制造过程中需要高质量的工业大数据,可以借鉴大数据的治理机制对工业数据资产进行有效治理。
3.与工业软件和工业云的关系
工业软件承载着工业大数据采集和处理的任务,是工业数据的重要产生来源,工业软件支撑实现工业大数据的系统集成和信息贯通。
工业大数据技术与工业软件结合,加强了工业软件分析与计算能力,提升场景可视化程度,实现对用户行为和市场需求的预测和判断。
1.美国先进制造业战略
2012年2月,美国发布了《先进制造业国家战略计划》报告,将促进先进制造业发展提高到了国家战略层面。从投资、劳动力和创新等方面提出了促进美国先进制造业发展的三大原则、五大目标及相应的对策措施。
2014年,美国白宫发布《2014年全球大数据白皮书》,指出美国大型企业在投资大数据科技方面的关键驱动因素:分析运营和交易数据的能力、洞察客户线上消费的行为、以向市场提供新的高度复杂的产品、对组织中的机器和设备进行更加深入的感知。
2.德国工业4.0战略
2015年4月,德国提出来“工业4.0”战略。强调通过信息网络与工业生产系统的充分融合,使产品与生产设备之间、工厂内部纵向之间、工厂与工厂之间,都能通过CPS(物理信息系统)联结为一个整体,从而实现生产的智能化,提升制造业的灵活性和工程效率。
3.法国新工业战略
2015年,法国推出“新工业法国战略”,总体布局为“一个核心,九大支点”。一个核心即“未来工业”,主要内容是实现工业生产向数字化、智能化转型。九大支点,包括新资源开发、可持续发展城市、环保汽车、网络技术、大数据技术、新型医药等。
2015年5月,法国经济、工业与就业部又公布了未来工业计划,该计划将在“新工业战略”的第二阶段中扮演核心角色,主要目标是建立更为互联互通、更具有竞争力的法国工业,旨在使工业工具更加现代化,实现经济增长模式转变。
4.中国制造2025战略
2015年5月,国务院正式印发《中国制造2025》规划。规划中提出将重点推动信息化与工业深度融合,把智能制造作为两化深度融合的主攻方向,着力发展智能装备和智能产品,推进生产过程智能化,培育新型生产方式。
同年12月,工信部、国标委联合发布《国家智能制造标准体系建设指南(2015年版)》。为推动智能工厂的建设,国务院又发布了《促进大数据发展行动纲要》,建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台。
工业大数据挖掘和分析的结果可广泛应用于企业研发设计、复杂生产过程、产品需求预测、工业供应链优化和工业绿色发展等各个环节。
1.在设计领域的应用
工业设计大数据主要用于提高研发人员的研发创新能力、研发效率和质量,支持协同设计,具体体现为以下几个方面:
(1)基于模型和仿真的研发设计
基于模型的研发设计。在数字化技术环境下的产品设计开发,从概念设计就以数字化模型为载体,不受到时间和空间等因素的限制对产品模型修改和完善,然后将最终方案的数据通过生产设备进行产品制作。
基于仿真的设计。通过数字化模型的显示、仿真、快速成型、虚拟现实交互,可及早发现设计缺陷,优化产品,克服以往多种缺点。虚拟仿真技术还在不断提高系统的智能型,逐步解决产品创新设计中的不确定性与模糊性。
(2)基于产品生命周期的设计
运用大数据相关技术,实现高度有序化的方式展示产品生命周期设计大数据的关系,方便地集成员工在设计中产方便地集成员工在设计中产生的新知识,使产品设计大数据得进一步丰富。
(3)融合消费者反馈的设计
利用工业数据平台获取消费者、市场等各维度的数据信息,达到生产者和消费者之间“信息粘性”的效果,利用这些关联数据信息,通过大数据挖掘分析技术,实现客户全面洞察,改进、创新设计产品的功能和款式。
2.在复杂生产过程优化的应用
(1)工业物联网生产线
在生产工艺改进方面,在生产过程中使用这些大数据,就能分析整个生产流程,有助于制造商改进其生产流程。在能耗分析方面,在设备生产过程中利用传感器集中监控所有的生产流程,优化能源的消耗。
通过诸如AGV小车、智能分拣配对系统、智能吊挂系统与智能分拣送料系统的导入等,加快整个制造流程的物料循环,通过智能摘挂系统、信号识别系统、智能取料系统、智能装配、智能定制等系统的导入实现整个制造流程的自动化。
(2)生产质量控制
利用工业大数据技术,挖掘产品质量特性与关键工艺参数之间的关联规则,抽取过程质量控制知识,为在线工序质量控制、工艺参数优化提供指导性意见。
(3)生产计划与排程
大数据给予企业更详细的数据信息,发现历史预测与实际的偏差概率,通过数据的关联分析及监控,企业能更准确地制定计划。
3.在产品需求预测中的应用
在产品开发方面,分析当前需求变化和组合形式,通过消费人群的关注点进行产品功能、性能的调整,设计制造更加符合核心需要的新产品,针对每一个群体策划并推送针对性的营销。
4.在工业供应链优化中的应用
供应链环节工业大数据的应用主要体现在供应链优化,即通过全产业链的信息整合,使整个生产系统达到协同优化,让生产系统更加动态灵活,进一步提高生产效率和降低生产成本。主要应用有供应链配送体系优化和用户需求快速响应。
5.在工业绿色发展中的应用
新一代信息技术通过对产品的配方、工艺及原材料采购、生产制造、仓储、运输、使用、大修和报废的全过程进行监控和管理,以数据采集为前端,数据分析和挖掘为服务,为制造企业实现绿色制造提供有力保障。
工业大数据参考架构以工业过程的业务需求为导向,基于工业系统的业务架构,规划工业大数据的数据、技术和应用(平台)架构,以搭建面向多业务领域、贯通多组织和应用层次的工业大数据IT架构。
1.数据参考架构
工业大数据应用的目标是构建覆盖工业全流程、全环节和产品全生命周期的数据链,工业大数据在实际应用当中涉及到的主要环节:数据源、数据收集与集成、数据处理与数据管理、典型应用场景等四个层次。
2.技术参考架构
工业大数据技术架构共有五个部分,分别为数据采集层、数据存储与集成层、数据建模层、数据处理层、数据交互应用层。
3.平台参考架构
工业大数据平台涵盖了IT网络架构和云计算基础架构等基础设施,专家库、知识库、业务需求库等资源,及安全、隐私等管理功能。此外,还包含关联工业大数据实际应用的三方面角色,即数据提供方、数据服务消费方、数据服务合作方。
来源:
工信部、中国电子技术标准化研究院
,文/,
Arbei
工业大数据正乘着多个此起彼伏的浪潮而实现借力变革,如:传感器变得无处不在,物联网平台的计算和承载能力不断增强,AI人工智能等技术让数据分析更为高效,活跃的IoT生态圈让越来越多的企业尝试通过APP微服务的方式将数据价值变现。
敏感的你一定也会感觉到,随着物联网数据的激增以及运算能力的提升,工业大数据正在真正的进入落地阶段。
①
工业大数据的定义与特征
工业界普遍对大数据寄予厚望,但工业大数据并不是救赎工业制造本身的“仙丹”。郭朝晖提到的例子很形象,他到寺里参观,老方丈说:“各位来寺里拜佛,是要自己把事情想明白。拜佛就是拜自己,自己想不明白,佛也帮不了你。”同样,想做好大数据分析,自己也要把问题想清楚,自己想不清楚,数据也没法帮你解答。
按照我们一般理解,
大数据分为工业大数据和互联网大数据,目前无论是技术还是应用,领先的都是互联网大数据,狭义的大数据也更多说的是互联网大数据
。
工业大数据更多的是借鉴了互联网大数据的概念,又结合了IoT物联网的技术,把面向个人用户的“行为”数据分析与思维模式进行扩展,并应用到了企业领域。
进一步细分,按照不同行业,可以将工业大数据分为公共事业大数据、交通大数据、物流大数据、零售大数据、医疗大数据、石油化工大数据等类别。按照不同用途,又可以分为工控大数据、经营大数据、产品大数据、场景大数据等形态。
郭朝晖认同工业大数据的如下特点,他认为这几个观点明显强于常被借鉴的大数据“4V”观点,即规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value)。其中从“因果关系”到“相关关系”这个特点应该辩证理解,只在一定情况下成立,要注意约束条件,避免人云亦云。
②
工业大数据与互联网大数据的区别
工业大数据绝大多数是时序数据,与我们通常所讲的互联网大数据有不少差异。
首先,工业大数据源自企业内部,而非互联网个人用户;
其次,数据采集方式更多依赖传感器,而非用户行为或录入数据;第三,数据服务对象是企业,而不是个人;第四,就技术而言,传统的企业IT技术已无法提供相应的分析应用,需要借鉴和采用互联网大数据领域成熟的技术;最后,工业大数据让企业改变了原先对数据的看法,使得那些看似无用的、直接丢弃的数据重新得到了重视,并且切实改进了企业的生产、销售、服务等流程。
王宇将工业大数据与互联网大数据的区别进行了如下提炼。
做个总结:
-
工业大数据注重特征背后的物理意义以及特征之间关联性的机理逻辑,而互联网大数据则倾向于依赖统计学工具挖掘属性之间的相关性。
-
互联网大数据侧重于人的行为数据采集的全面性,工业大数据侧重于设备数据采集的全面性,即面向应用要求具有尽可能全面的使用样本,以覆盖工业过程中的各类变化条件,保证从数据中能够提取出反映对象真实状态的全面性信息。
-
由于工业通讯频率普遍在毫秒量级,工业大数据对预测和分析结果的容错率远远比互联网大数据低得多。
③
工业大数据之工控大数据
工控大数据是工业大数据中非常特殊的一类,因此单独进行阐述。
制造业领域的生产相关数据,我们姑且把它称为工控大数据,虽然它并不符合通常意义上大数据的标准,但仍旧可以借鉴互联网大数据的技术,创造崭新价值。
来自GE统计,现在工业企业内部由机器产生的数据量是非常庞大的,以TB来计。由于前期很多技术原因,以及对数据采集不够重视,我们并没有充分利用这些数据,利用率不到2%。如何提升工控大数据的利用率,关系到智能化水平,这是工业企业面临的最大挑战和难题之一。
如果给出详细定义,工控大数据是指在工业领域的工厂内部,通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出的新型的基于数据驱动的工业信息化技术及其应用。
工控大数据尤其注重数据质量,怎样才能把工控大数据的质量控制好?郭朝晖的经验告诉我们,如果一项数据不与业务结合,数据出多少问题都没人知道。所以工控大数据,必须首先让这些数据“有用”。数据有用了,数据质量才会持续改进,数据质量高了,才有被利用的基础,推动智能化才划算。
郭朝晖在宝钢利用工控大数据指导产品设计,取得了很好的应用效果。传统的钢铁产品设计依靠实验和生产试验,每次生产实验失败可能会损失上百万元。郭朝晖他们历时10年,分析了上百万条数据,摸索出力学性能的规律,适合于绝大多数热轧产品的设计,杜绝了实验失败的连锁损失。
工控大数据的意义并不在于有多“大”,真正有意思的是数据都变得在线了。
那么在线之后,工控大数据该如何发挥价值?郭朝晖的观点是工控大数据的价值在于行业知识的复用。
工控大数据让你知道过去谁还遇到了类似的问题,你把别人的解决方法从历史中找出来,按照别人的成功办法去学,去借鉴已有案例处理类似的新问题,并再次形成对已有知识的补充和精进。
在工控大数据背景下,只要案例足够多,就能够找到可以借鉴的先例。通过知识的提炼,可以把个性问题转化成共性问题,进而完成知识的共享。
作为工业大数据的一个类型,郭朝晖总结了关于工控大数据的几个原则性认识:
-
工控大数据的本质是以数据形式呈现的“信息”或者“知识”,而不是没有关联的数据。“知识”在时空上具有更强的通用性和连续性。
-
工控大数据的核心价值是知识的重用。大数据带来的好处是,知识获得的成本低、范围广、质量高。智能化使得知识在人机之间共享,促进了知识价值体现。知识价值的提高,会让人们值得花更大的力气去发现价值,形成大数据工作的良性循环,让知识工作的价值暴增。
-
从知识来源的角度来看,最好的做法是数据就是知识,其次是让数据中的信息很容易提炼出知识。从知识的角度来看,数据的准备过程,比分析过程更加重要。
-
数据分析是知识获取的过程。但是获取什么知识,服从于业务的需求,所有需要用到数据分析的地方,首要任务和工作重点,是理清业务需求的脉络和逻辑,把业务需求转化成一个便于分析的数学问题,而不是随便拿一堆数据乱分析。
-
最初的大数据关注数据的二次应用,数据来源服从于一次应用的需求。但随着工控大数据的发展,二次应用本身变得非常重要,一次应用和二次应用的界限会变得模糊。
④
工业大数据在企业落地的逻辑与方法
伴随传感器采集的数据越来越多,IoT领域越来越多的参数被纳入考虑的范畴,数据之间的关联关系持续增强,而这些新型关联关系,将会激发全新的模型和视野。
数据分析是一种探索活动,陈广乾通过多年的教训和经验总结,形成了一套工业大数据在企业落地的逻辑与方法。
他在海尔时就主导大数据相关项目,并且知道不是所有的数据都是大数据。社会数据早就有,质量数据也早就有,关键是这堆数据里,能否通过分析深度数据,形成新的数据模型,来实现新的价值组合?利用这些综合的算法分析,找出什么样企业、什么样的数据,适合什么样的模型,是他做工业大数据分析的一个基本方法论。
他首先解决的是工业数据难于理解的问题。工业对象的系统性明显,复杂程度高,对数据分析的质量要求高。而深入理解各个工业,则要花费太长时间。
他在和清华、北大等大数据领域的博士沟通时了解到,虽然博士们对数据算法有很深的研究,但是却找不到数据后面的业务含义,原因是他们欠缺业务模型训练。而业务模型训练是非常重要的,它是具体行业问题的“解铃人”。
接着,将业务模型建立起来以后再做算法,算法形成后,回过头来检测与实际业务需求的差别。实施的过程本就是不断调整的过程,不断训练模型,一直到这个模型能解决业务问题,能产生实际效果,形成一个闭环的循环。
以陈广乾带领团队完成的工程机械大数据项目为例,根据下面他们绘制的工程机械经销商业务全景图,利用工业大数据分析,他们完成了代表性企业的运营优化任务,最终的项目绩效相当亮眼:
-
项目成功预测工程机械老客户6亿元的潜在金额流失,其中重度流失2.8亿元,中度流失2.3亿元,潜度流失0.9亿元。
-
项目成功挖掘工程机械新客户8.2亿元销售机会,其中大型机2.2亿元,中型机3.5亿元,小型机2.5亿元。
-
基于销售网格,项目全面支持1,000名现有员工实现20亿元的债权逾期管控。
-
所以这是基于前端的用户标签如:相似性、消费行为的聚类性、分群性来做算法,这是基于算法模型。
⑤
专供工业大数据的时序数据库
在工业大数据存储领域,除了传统的关系型数据库和分布式数据库以外,还有一种类型的数据库是非常必要和实用,就是时序数据库,工控领域也称其为实时数据库。
由于IoT领域几乎全部传感数据和控制数据都是时序数据,陶建辉总结了工业大数据的时序空间特性。
时序数据库并不单单只是一个数据库,而是一个系统,包括对各类工业接口的数据采集、压缩、存储、检索、实时计算,基于监测数据的反馈及控制功能等。
时序数据库的出现,主要是为了解决关系型数据库不太擅长的领域,包括:
1、海量数据的实时读写操作:
工业监控数据要求采集速度和响应速度均是毫秒级的,一个大型企业几万甚至几十万监测点都是常有的事情,这么大容量的高频数据,如果用关系数据库进行存储,很难进行每秒几十万次的数据的读写操作。
2、大容量数据的存储:
由于数据采集是海量的监控数据,如果用传统数据库存储,将会占用大量空间。如用关系数据库保存10,000个监测点,每个监测点每秒钟采集一次双精度数的数据,需要5-6TB空间,如果考虑其它因素再建立索引,则需15-20TB空间。时序数据库采用专门的压缩算法,存储量能够缩小到1/40,因此只需500GB的空间就能有效存储。
3、集成了工业接口的数据采集:
工业通讯、传输的协议种类繁多,时序数据库一般都集成了大量的工业协议接口,可以对各种类型的工业协议进行解析和传输。
具备流式计算能力的工业大数据平台在2017年前后渐热,出现了大量的开源和商业产品。
陶建辉抓住上述开源大数据平台在物联网大数据处理上性能价格比低下的问题,开发了专业高效的时序数据引擎TDengine,大幅降低应用开发难度和成本,缩短应用推向市场的时间。
TDengine正在高铁项目上进行测试,替代原有的MySQL,大幅提升了数据分析的时效性。
工控领域市场份额最大的实时数据库是美国OSIsoft公司的PI System,因其在物联网领域的前瞻布局,2017年获得了软银的投资。在2018年5月初,OSIsoft公司一年一度的用户大会中,PI System不仅进行了全新升级,提供机器学习能力,同时支持边缘和云端运算,还正在尝试与区块链的结合应用。
来源:
物女王(彭昭)
物联网智库
工业大数据是一个新的概念,从字面上理解,
工业大数据是指在工业领域信息化应用中所产生的大数据。
随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、ERP、CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用,尤其是互联网、移动互联网、物联网等新一代信息技术在工业领域的应用,工业企业也进入了互联网工业的新的发展阶段,工业企业所拥有的数据也日益丰富。工业企业中生产线处于高速运转,由工业设备所产生、采集和处理的数据量远大于企业中计算机和人工产生的数据,从数据类型看也多是非结构化数据,生产线的高速运转则对数据的实时性要求也更高。因此,工业大数据应用所面临的问题和挑战并不比互联网行业的大数据应用少,某些情况下甚至更为复杂。
工业大数据应用将带来工业企业创新和变革的新时代。通过互联网、移动物联网等带来的低成本感知、高速移动连接、分布式计算和高级分析,信息技术和全球工业系统正在深入融合,给全球工业带来深刻的变革,创新企业的研发、生产、运营、营销和管理方式。这些创新不同行业的工业企业带来了更快的速度、更高的效率和更高的洞察力。工业大数据的典型应用包括产品创新、产品故障诊断与预测、工业生产线物联网分析、工业企业供应链优化和产品精准营销等诸多方面。本文将对工业大数据在制造企业的应用场景进行逐一梳理。
客户与工业企业之间的交互和交易行为将产生大量数据,挖掘和分析这些客户动态数据,能够帮助客户参与到产品的需求分析和产品设计等创新活动中,为产品创新作出贡献。
福特公司是这方面的表率,他们将大数据技术应用到了福特福克斯电动车的产品创新和优化中,这款车成为了一款名副其实的“大数据电动车”。第一代福特福克斯电动车在驾驶和停车时产生大量数据。在行驶中,司机持续地更新车辆的加速度、刹车、电池充电和位置信息。这对于司机很有用,但数据也传回福特工程师那里,以了解客户的驾驶习惯,包括如何、何时以及何处充电。即使车辆处于静止状态,它也会持续将车辆胎压和电池系统的数据传送给最近的智能电话。
这种以客户为中心的大数据应用场景具有多方面的好处,因为大数据实现了宝贵的新型产品创新和协作方式。司机获得有用的最新信息,而位于底特律的工程师汇总关于驾驶行为的信息,以了解客户,制订产品改进计划,并实施新产品创新。而且,电力公司和其他第三方供应商也可以分析数百万英里的驾驶数据,以决定在何处建立新的充电站,以及如何防止脆弱的电网超负荷运转。
这可以被用于产品售后服务与产品改进。无所不在的传感器、互联网技术的引入使得产品故障实时诊断变为现实,大数据应用、建模与仿真技术则使得预测动态性成为可能。
在马航MH370失联客机搜寻过程中,波音公司获取的发动机运转数据对于确定飞机的失联路径起到了关键作用。我们就拿波音公司飞机系统作为案例,看看大数据应用在产品故障诊断中如何发挥作用。在波音的飞机上,发动机、燃油系统、液压和电力系统等数以百计的变量组成了在航状态,这些数据不到几微秒就被测量和发送一次。以波音737为例,发动机在飞行中每30分钟就能产生10TB数据。
这些数据不仅仅是未来某个时间点能够分析的工程遥测数据,而且还促进了实时自适应控制、燃油使用、零件故障预测和飞行员通报,能有效实现故障诊断和预测。再看一个通用电气(GE)的例子,位于美国亚特兰大的GE能源监测和诊断(M&D)中心,收集全球50多个国家上千台GE燃气轮机的数据,每天就能为客户收集10G的数据,通过分析来自系统内的传感器振动和温度信号的恒定大数据流,这些大数据分析将为GE公司对燃气轮机故障诊断和预警提供支撑。风力涡轮机制造商Vestas也通过对天气数据及其涡轮仪表数据进行交叉分析,从而对风力涡轮机布局进行改善,由此增加了风力涡轮机的电力输出水平并延长了服务寿命。
现代化工业制造生产线安装有数以千计的小型传感器,来探测温度、压力、热能、振动和噪声。因为每隔几秒就收集一次数据,利用这些数据可以实现很多形式的分析,包括设备诊断、用电量分析、能耗分析、质量事故分析(包括违反生产规定、零部件故障)等。
-
首先,在生产工艺改进方面,在生产过程中使用这些大数据,就能分析整个生产流程,了解每个环节是如何执行的。一旦有某个流程偏离了标准工艺,就会产生一个报警信号,能更快速地发现错误或者瓶颈所在,也就能更容易解决问题。
-
利用大数据技术,还可以对工业产品的生产过程建立虚拟模型,仿真并优化生产流程,当所有流程和绩效数据都能在系统中重建时,这种透明度将有助于制造商改进其生产流程。
-
再如,在能耗分析方面,在设备生产过程中利用传感器集中监控所有的生产流程,能够发现能耗的异常或峰值情形,由此便可在生产过程中优化能源的消耗,对所有流程进行分析将会大大降低能耗。
当前,大数据分析已经是很多电子商务企业提升供应链竞争力的重要手段。例如,电子商务企业京东商城,通过大数据提前分析和预测各地商品需求量,从而提高配送和仓储的效能,保证了次日货到的客户体验。RFID等产品电子标识技术、物联网技术以及移动互联网技术能帮助工业企业获得完整的产品供应链的大数据,利用这些数据进行分析,将带来仓储、配送、销售效率的大幅提升和成本的大幅下降。
以海尔公司为例,海尔公司供应链体系很完善,它以市场链为纽带,以订单信息流为中心,带动物流和资金流的运动,整合全球供应链资源和全球用户资源。在海尔供应链的各个环节,客户数据、企业内部数据、供应商数据被汇总到供应链体系中,通过供应链上的大数据采集和分析,海尔公司能够持续进行供应链改进和优化,保证了海尔对客户的敏捷响应。
美国较大的OEM供应商超过千家,为制造企业提供超过1万种不同的产品,每家厂商都依靠市场预测和其他不同的变量,如销售数据、市场信息、展会、新闻、竞争对手的数据,甚至天气预报等来销售自己的产品。
利用销售数据、产品的传感器数据和出自供应商数据库的数据,工业制造企业便可准确地预测全球不同区域的需求。由于可以跟踪库存和销售价格,可以在价格下跌时买进,所以制造企业便可节约大量的成本。如果再利用产品中传感器所产生的数据,知道产品出了什么故障,哪里需要配件,他们还可以预测何处以及何时需要零件。这将会极大地减少库存,优化供应链。
通过大数据来分析当前需求变化和组合形式。大数据是一个很好的销售分析工具,通过历史数据的多维度组合,可以看出区域性需求占比和变化、产品品类的市场受欢迎程度以及最常见的组合形式、消费者的层次等,以此来调整产品策略和铺货策略。在某些分析中我们可以发现,在开学季高校较多的城市对文具的需求会高很多,这样我们可以加大对这些城市经销商的促销,吸引他们在开学季多订货,同时在开学季之前一两个月开始产能规划,以满足促销需求。对产品开发方面,通过消费人群的关注点进行产品功能、性能的调整,如几年前大家喜欢用音乐手机,而现在大家更倾向于用手机上网、拍照分享等,手机的拍照功能提升就是一个趋势,4G手机也占据更大的市场份额。通过大数据对一些市场细节的分析,可以找到更多的潜在销售机会。
制造业面对多品种小批量的生产模式,数据的精细化自动及时方便的采集(MES/DCS)及多变性导致数据剧烈增大,再加上十几年的信息化的历史数据,对于需要快速响应的APS来说,是一个巨大的挑战。
大数据可以给予我们更详细的数据信息,发现历史预测与实际的偏差概率,考虑产能约束、人员技能约束、物料可用约束、工装模具约束,通过智能的优化算法,制定预计划排产,并监控计划与现场实际的偏差,动态的调整计划排产。
帮我们规避“画像”的缺陷,直接将群体特征直接强加给个体(工作中心数据直接改变为具体一个设备、人员、模具等数据)。通过数据的关联分析并监控它,我们就能计划未来。虽然,大数据略有瑕疵,只要得到合理的应用,大数据会变成我们强大的武器。当年,福特问大数据的客户需求是什么?而回答是“一匹更快的马”,而不是现在已经普及的汽车。所以,在大数据的世界里,创意、直觉、冒险精神和知识野心尤为重要。
传统的制造业正面临着大数据的冲击,在产品研发、工艺设计、质量管理、生产运营等各方面都迫切期待着有创新方法的诞生,来应对工业背景下的大数据挑战。例如在半导体行业,芯片在生产过程中会经历许多次掺杂、增层、光刻和热处理等复杂的工艺制程,每一步都必须达到极其苛刻的物理特性要求,高度自动化的设备在加工产品的同时,也同步生成了庞大的检测结果。这些海量数据究竟是企业的包袱,还是企业的金矿呢?如果说是后者的话,那么又该如何快速地拨云见日,从“金矿”中准确地发现产品良率波动的关键原因呢?这是一个已经困扰半导体工程师们多年的技术难题。
某半导体科技公司生产的晶圆在经过测试环节后,每天都会产生包含一百多个测试项目、长度达几百万行测试记录的数据集。按照质量管理的基本要求,一个必不可少的工作就是需要针对这些技术规格要求各异的一百多个测试项目分别进行一次过程能力分析。如果按照传统的工作模式,我们需要按部就班地分别计算一百多个过程能力指数,对各项质量特性一一考核。这里暂且不论工作量的庞大与繁琐,哪怕有人能够解决了计算量的问题,但也很难从这一百多个过程能力指数中看出它们之间的关联性,更难对产品的总体质量性能有一个全面的认识与总结。然而,如果我们利用大数据质量管理分析平台,除了可以快速地得到一个长长的传统单一指标的过程能力分析报表之外,更重要的是,还可以从同样的大数据集中得到很多崭新的分析结果。
《穹顶之下》令人印象深刻的一点是通过可视化报表,柴静团队向观众传递雾霾问题的严峻性、雾霾的成因等等。
这给我们带来的一个启示,即大数据对环保具有巨大价值。《穹顶之下》图表的原生数据哪里来的呢?其实并非都是凭借高层关系获取,不少数据都是公开可查,在中国政府网、各部委网站、中石油中石化官网、环保组织官网以及一些特殊机构,可查询的公益环保数据越来越多,包括全国空气、水文等数据,气象数据,工厂分布及污染排放达标情况等数据等等。只不过这些数据太分散、太专业、缺少分析、没有可视化,普通人看不懂。如果能够看懂并保持关注,大数据将成为社会监督环保的重要手段。百度上线《全国污染监测地图》就是一个很好的方式,结合开放的环保大数据,百度地图加入了污染检测图层,任何人都可以通过它查看全国及自己所在区域省市,所有的在环保局监控之下的排放机构(包括各类火电厂、国控工业企业和污水处理厂等)的位置信息、机构名称、排放污染源的种类,最近一次环保局公布的污染排放达标情况等。可查看距离自己最近的污染源,出现提醒,该监测点检测项目,哪些超标,超标多少倍。这些信息可以实时分享到社交媒体平台,告知好友,提醒大家一同注意污染源情况及个人安全健康。
工业大数据应用的价值潜力巨大。但是,实现这些价值还有很多工作要做。一个是大数据意识建立的问题。过去,也有这些大数据,但由于没有大数据的意识,数据分析手段也不足,很多实时数据被丢弃或束之高阁,大量数据的潜在价值被埋没。还有一个重要问题是数据孤岛的问题。很多工业企业的数据分布于企业中的各个孤岛中,特别是在大型跨国公司内,要想在整个企业内提取这些数据相当困难。因此,工业大数据应用一个重要议题是集成应用。
来源:工业智能化
来源:
杨娟
数据观
作者:
清华大学教授王建民
大数据本来有更加学术化的名称:数据密集型(Data-Intensive)计算研究
。微软在2009年组织撰写《第四范式:数据密集型科学发现》一书,给与这种方法以“范式里程碑”的待遇。而对于大众而言,这些不过是野地径自升起的炊烟,无人知晓也无可关注。
后来随着Big Data这个简洁明了的概念一炮打响,各种大数据这才迎风而上。
工业大数据不过是其中一种BigBang。工业4.0轻松地接过这一闪亮的火把,搅动了人们对于大数据无穷的想象力和不着边际的信心。数字设计、数字工厂、数字制造等一时间喧嚣而上,难免给人造成一种温暖的假象:到处都是工业大数据。有些舆论甚至断言,中国拥有全世界最大的工业大数据——大概理由是因为中国有最多的设备和工厂现场。
贵阳大数据中心,以政府主导型的数据为基础,基本是城市数据、政务数据、物流数据等;阿里云是以消费者数据为基础,十多年淘宝历程,沉淀了大量的用户行为数据。
但是,对于那些不分昼夜轰鸣的设备,工业数据仍然是暗无天日的黑油、黑煤炭。对中国制造业而言,
些许的光亮或闪烁,
远没有到大规模发光发热的时代。更为重要的事情,还需要工业领域去优先解决。
对于第一次工业革命的发源地,煤炭在英国发挥了巨大的作用。1700年,英国煤产量是世界其他地区的5倍;1800年,是欧洲其他地区的5倍。
然而,谜团犹在,英国拥有煤炭,好像是该国逃离农耕陷阱的根本要素。但与此同时,德法日和清朝,都有大面积煤田,却未得到大规模的开采。煤炭与工业革命的关系值得明辨。
实际上,这不是一个煤炭创造了工业革命的问题,而是工业革命创造了煤炭需求的问题。
换言之,英国煤炭工业的飞速发展,只是财富和技术已经到达高水平的一个征兆。
煤炭对于英国第一次工业革命的战略意义,此刻正如工业大数据之于中国制造2025。由于蒸汽机的驱动,煤炭犹如脱缰之野马,成为工业革命源源不断的动力。正如一把复杂钥匙吻合一把锁,这种类似的模式,第一次将人力一劳永逸地解脱出农耕时代。工业根基肇始。一段时间后,这个开锁程序被世界模仿,并且换成石化燃料和内燃机。
随着智能制造的发轫,看上去这个模式,马上就要交给了工业大数据。
而此刻,我们必须意识到,数据对于新工业革命的意义,尤其是对于中国制造2025的意义,是一种全新的密码锁模式——中国工业化还并不太熟悉的一种模式。
数据、信息和知识的关系,有时候容易混淆。大致而言,数据最开始都是未经组织的,大量存在却价值极低;底层的数据需要通过信息化和工业化,才能转化为知识体系。
从数据到信息,本身就是一种过滤机制——这需要一种提炼,然后可执行、可传递的信息形成知识。知识分为隐性和显性,隐性知识往往存在于人本身之中,传递性很差。
可惜的是,传统知识管理的DIK模型(Data-Information-Knowledge)关系,是一个单线程关系。它只解决了知识的提炼,没有解决回馈问题。
就工业大数据而言,最重要的就是对它进行密集型的分析——工业知识断不能缺位。GE在谈及工业互联网的时候,给与了“专业知识”以高度的重视。工业大数据不是传统的数据统计分析,而是基于专业知识的引导,才能挖掘出数据真正的价值。
显然,知识体系必须重新作用于数据本身,才能形成工业大数据的价值。在工业领域,“无知识,不数据”。没有工业经验的线性化指引,数据就不会高速转化,工业大数据的价值,就不会产生。
对于数据而言,信息化作了第一次提升,使得数据归类、文本化和沉淀;但必须通过工业化才能进行第二次提升,才能将数据提升到知识的高度,形成真正的Know-how、经验、最佳实践、直觉;在此基础上,挖掘形成大数据的新产业价值。
如果数据是石油,设备是藏宝地图,那么知识是唯一的钻探工具。
中国工业技术体系没有形成线性化,尚无法形成驱动力。那些数据深藏在设备里,深锁在系统中,它们只在规定的范围局部流动,一如地表下的熔岩。它们有着澎湃的能量,却无法驾驭。
就此而言。中国就没有工业大数据。甚至连显性化的工业数据都没有。我们工业化短短的行程,使得我们习惯于硬件思维和设备思维,还没来得及形成珍惜工业数据的意识。
对那些有着厚重的工业技术体系和知识转化的GE、西门子而言,当他们在说工业大数据的时候,他们有着一个我们很多企业没有的隐含条件。
这是我们需要有的清醒意识:不要将无数的现场数据等同于工业大数据。
就中国制造业而言,知识才是最大的拦路虎。工厂中各种数据,如果没有领域知识和业务建模的前提,不过
满工厂堆砌起来的
一座座数据垃圾山。
对于企业而言,必须静下心来想一想:数据何在?知识何在?这是一种全新的范式,我们并不熟悉它:
工业大数据模式,需要先看懂密码锁规格,再去找钥匙。
两化融合走了十年之路,给中国制造业培养了一批工厂级的IT人才。就中国整体而言,许多企业的信息化水平并不低;但知识化和工业数据,则处于非常低的价值链。受各种信息孤岛的影响,数据被捆绑了,犹如被深嵌在花岗石上的钻石,数据处于高度不流动性。不流动的数据,不太可能发挥工业大数据的价值。
过去几十年,中国制造市场不知疲倦地耗资引进各种设备自动化——一种自由购买的商品,一种吞噬数据的黑洞机器;中国工厂也略知皮毛地、半推半就地引进了精益思想,它的烙印还没来得及成为我们血液中的自由元素。
而此刻,全新的数字化技术却已经来到身边,成为我们必须面对、必须应答的时代拷问。
新的浪费,正在形成。
中国的工厂必须用知识来解放数据。中国制造者们,此刻必须开始意识到,我们最熟视无睹的“数据浪费”, 已经成为一种新的触目惊心的挥霍。这是一种可怕的工业无知。它如一只令人生厌的乌鸦,站在设备的控制板上,嘲笑着我们在设备上所做的大把大把的投资。
就设备的效率而言,我们需要设备自动化;
就资源的浪费而言,我们需要精益生产观;
就数据的效率而言,我们需要知识自动化;
就数据的浪费而言,我们需要精益数据观。
从工业大数据的角度,中国制造业尚处于数据的黑金时代。
在当下,工业大数据还是中国制造业的伪命题。
正是此刻,数据与知识的关系,更加耐人寻味。在这样一个i额时代,所有企业都将逐渐意识到数据的重要性。但如何能够完成数据的解放,将数据释放出来,仍然需要穿过“无视知识
”
的认知障碍,仍然需要借助大量的专业化知识。这是中国两化深度融合过程中,工业化必须单独回答的命题。
如果我们忽略管理者深浅不一的见识和技术上互相标榜的流派,那么工业4.0时代的所有命题,其实只有两个:数据和用户。所有的障眼法都由此而来。
而工业知识的显性化、模型化和固化,则是破解数据障眼法的唯一之道。
来源:
林雪萍
知识自动化
本期清华大数据思享会工业大数据系列之
“工业大数据管理技术”
,清华大学数据科学研究院工业大数据研究中心总工程师、昆仑数据公司CTO
王晨
分享了大数据和数据管理的理解,并对工业大数据驱动力、特点、难点和实践路径等进行通俗而深刻的阐述。主题分享后,来自工业信息化领域、煤矿安全领域、设备运维领域和工业实时数据库领域及学术研究等领域的参会朋友就工业数据存储架构、工业领域数据采集、数据建模分析过程中行业专家与数据专家的配合等方面问题进行深入交流和讨论。以下是分享的主要内容:
数据分析应用是真正能够直接解决企业问题的,是显露在外可以直接观察的部分,但是在这之下有很大部分支撑数据分析应用的就是数据管理技术。数据分析应用需要一整套的处理和加工过程,数据就是原材料,需要把数据有序地存储和管理起来。然后是数据的整理、清洗、集成,这个过程主要由数据工程师(DataEngineer)来完成,最后由数据科学家借助数据分体的工具和平台根据业务问题等实际需要采用不同的算法和方法等进行数据分析。大数据的概念是由麦肯锡提出来的,后来有3V、4V、5V的解释。就像盲人摸象一样,大数据一直没有准确的定义。到底什么是大数据呢? 本质上大数据就是数据驱动的分析,大数据管理其实就是支撑数据应用的平台的管理技术。
最早数据存放在文件里,没有中间件进行数据管理,数据的存储和读取完全由应用软件完成。由此也造成用户无法专注于应用逻辑,而且还要清楚数据管理逻辑。在此过程中发现有越来越多共性的需求,从而提炼出数据管理技术,作为独立的中间件形态。从文件到数据库的技术过程最早是百花齐放的,类似网络数据库、层次数据库,到70年代突然只剩下关系型数据库了,其背后的逻辑就是应用驱动,因为在70年代只有银行愿意为数据库的技术买单,现在数据库技术的许多概念都是源于金融体系。数据库有一个很重要概念transaction,即事务,需要保证数据的ACID,任何一个操作要保证其原子性、一致性、持久性、隔离性。同样是在应用驱动下,后面又出现了很多种类型的数据库,因为只有一种关系型数据库无法满足所有需求。如有些数据分析的时候对数据库写入操作很少,但是有大量复杂的读和查询的操作,数据仓库技术就出现了。
2010年左右大数据技术的出现,因应了新的数据类型或者是数据的使用场景,各类NoSQL和NewSQL的数据库开始逐步涌现。
Wikipedia上关于大数据是用排除法做的定义,如果数据大、复杂,各方面处理的实时性高,传统的数据管理技术和传统的数据处理软件处理不了或者处理不好,需要一些新的技术来解决,这些新技术就把它统称为大数据技术。从科学研究的角度来说这是非常糟糕的定义,这个定义里面充斥了各种形容词,但这已经是我们能够找到最好的定义了。以前做事务管理的是关系型数据库,数据通过ETL的工具导入数据仓库,在数据仓库上建维表,建数据集市,在上面跑各种统计分析,是后面做各类报表,可能还要讨论很多算法模型。如今我们突然发现这个传统的数据流程走不下去了,需要找到新技术来实现,这就是通常意义上所谓的大数据管理技术。
二、大数据管理技术怎么来?
大数据是应用驱动的,传统的技术满足不了应用的需求,就需要找到新的数据管理技术来解决,这些新技术统称为大数据管理技术。那么大数据管理技术又是怎么来的呢?
Google是最早尝试使用新技术来满足业务需求的公司,Google搜索先要把全世界的网页扒回来存下来,然后把关键词抽取出来,对这些网页做排名,在线搜索的时候要根据用户输入的关键词找到相应的网页,这里怎么把网页定位出来,这些用传统技术都不能很好的解决。Google抓取回来的海量数据用传统的数据管理技术已经无法存储,所以Google第一个搞出来的是GFS(Google File System)即Google的分布式文件系统,可以把小型机的内置盘连在一起,就像集中存储一样。Google的GFS存储的不再是单个文件,所有的数据是大批量写进去、大批量读出来,没有很多随机的访问,也可以做块的读取,采用分布式小型机存储,通过MapReduce的分布式技术框架来支撑大规模机器的计算。搜索的时候根据事先建立的索引,从存储结果里面去找关键字key,对应的value就是要找的网页。
所以在数据库方面Google先研发出了BigTable,BigTable现在开源版本叫HBase,BigTable与关系型数据库的区别主要表现在两方面:第一,它支持key/value的查询,通过一个键可以找到相应的值,而不需要复杂的sql查询;第二,每一个键对应的值有很多,一个关键词会有多少个网页,每个网页需要存储的内容大小和网页的复杂度都不一样,关系型数据库表结构根本没法设计,所以在BigTable里引入了列组,每一行数据的列数都可以变。Google所有的这些创新,也都是根据自身业务的需求、数据的特点,找到适合的解决方法。Google本身的技术堆栈也在演进,在14年已经放弃使用MapReduce了,数据存储管理的工具BigTable现在也不用了,Google已经又有新的技术创新。
三、大数据管理技术的发展现状和特点是什么?