专栏名称: 产业智能官

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【AI-CPS】【智能制造】软件定义创新工业范式

产业智能官 · 公众号 · · 2018-10-03 06:51

正文

2018国家智能制造论坛将于9月25日至26日在浙江宁波召开，在本届论坛内容包括：院士报告、大学科研机构报告与跨国集团、中国企业关于技术发展、行业解决方案的分享。

今天为大家分享的是论坛主旨报告人、中航工业集团信息技术中心首席顾问宁振波过去所作演讲实录——“智能制造——软件定义创新工业范式”。

未来先进制造业模式：随时、随地、随人

未来十五年先进制造业的模式应该是什么样的?我的理解是随时、随地，不随人的模式。随时，即一年365天每天24小时什么时候都可以制造；随地，指是无论在火星上、月球上、飞船里、珠穆朗玛峰上还是在深海里随地可以制造；不随人，即制造方式不随人的技能和设备的更换而发生变化，这就是我理解的未来制造模式。

制造和生产是两个不同的概念，制造包含了设计、工艺和生产。传统生产方式是单件大批量，现在就是多件小批量，未来个性化的定制会越来越多。个性化的单件制造、生产是非常困难的，尤其是复杂系统的不确定性问题，过去非常难以解决。现在，我们用软件来定义产品，用软件来定义生产过程、生产产品，就是要解决复杂系统的不确定性，这就是我理解的智能制造。今后相当长一段时间内，大批量、小批量、单件订制的生产方式会并存，单件定制解决了，其他就非常简单了。

关于人工智能，我对人工智能的认识首先是要互联，电子计算机是靠电信号互联，我们大脑的细胞是通过蛋白质互联，在这方面人工智能没有质的突破；第二个是新陈代谢，我指的是硬件可更换，软件可升级；第三个人工智能是可进化的，就是算法可以更改优化；第四个人工智能也追求自由，自由的意识。实际上是机器的自动沟通、自动联系，比如说Meta语言就是这样的工具和方法；第五个人工智能追求永生，在这样的条件下我们看一看未来智能制造是应该什么样的。

三体智能——来源于物理实体的经验

德国工业4.0首先要建立一个系统，即赛博物理系统，但是欧美的方法论和思想和我们东方文化不一样。东方的道家文化讲，道生一，一生二，二生三，三生万物。“三”是复杂体里面最简单的描述要素，例如光学的三基色可以构成万花桶，因此也可以说“三”是最简单的复杂体。欧美在谈论CPS时，认为CPS的核心就是解决设备和物料的互联互通，用赛博来控制实体，实体的状态反馈给赛博。赛博本身是一个数字虚拟体，是虚拟的模型。

欧美提到CPS没有考虑赛博是怎么来的，但实际上赛博是人创造的，我们写了一本《三体智能革命》的书，提出了物理实体、意识人体和数字虚体三体化一的三体智能理论。认为世界是一个物理实体，按照达尔文的进化论，从物理实体演化出了植物和动物，动物的高级形态就是人体。人是有智能的、有意识的人体，物理实体演化出了意识人体。

有意识的人体把物理实体建成模型，建成了数字虚体，这个数字虚体既可以指导我们产品的生产，也可以变成一个嵌入式系统，把数字虚体嵌入到物理实体中，这个物理实体就有智能了智能的人类用智能的工具，用数字建模的方法，就可以建成数字虚体。

数字虚体有两个作用。第一个作用就把数字虚体嵌入到物理实体中，物理实体就具有了智能。实际上智能制造有一个重要的概念就是生产型企业转型为生产服务型企业，生产服务型企业的重要标志，就是产品必须智能化，否则难以实现生产服务。第二，有了数字虚体，我们在产品设计、分析工艺和制造过程中先建立数字虚体，也就是我们通常所说建立数字模型，有了数字模型，实物生产、工艺制造就变简单了。因此，可以说有了数字虚体，我们的世界就会光明了。

去年5月17日中国工程院周济院长邀请我们《三体智能革命》主要作者在工程院讨论三体智能理论对中国制造2025和智能制造的支撑。今年4月份，在周济院长主持下的中国智能制造发展战略研究报告中，提出新一代智能制造的基本原理：人-信息-物理系统(HCPS)。

我们过去的生产研制方式基于蓝图，工艺卡片，下一步的生产研制方式就是基于数字定义，典型案例就是波音777的数字化。我们在2005年把飞机的起落架全部数字化，包括机械结构设计、电器系统设计、电子系统设计、控制系统设计、液压系统设计，建成全部虚拟的数字样机，可以考核起落架的功能和性能。

未来我们基于CPS数字定义或者基于CPS智能定义，这就是对于赛博物理系统的展示，我们知道美国SpaceX公司研制的可回收式中型运载火箭猎鹰九号实现顺利回收。现在常规火箭分离靠爆炸螺栓实现分离。之前美国、俄罗斯、中国想用机械弹射式方法完成分离，都做了大量的地面试验，但全部失败。但是马斯克没有做大量地面物理试验，直接用计算机设计仿真方式并最终实现了回收，火箭分离靠机械弹射式实现的。这也从一个侧面说明新一代智能制造的基础是数字化。

数字化制造的基础是什么呢？是几百年上千年以来我们形成大量物理实践的经验，因此虚实精确映射，基础是实体。皮之不存毛将焉附，人类几百年几千年的经验是形成大量实体制造的基础，在这个基础上我们建造大量的虚拟数字虚体，然后才有相互映射的关系。理解这个就可以实现融会贯通虚实之间的关系。

智能制造的本质即软件化的工业基础

智能制造的本质是什么？智能的核心是软件，因此智能制造的本质就是软件化的工业基础，是软件定义的产品，软件定义的生产体系。它们促进生产关系的优化重组，而生产关系的优化和重组就是优化流程，流程是核心。这就会带动生产关系的重大变革，因此我们的生产关系必须优化重构。

关于第四次工业革命，如果大家把2013年4月份德国在汉诺威工业博览会上发布的《实施“工业4.0”战略建议书》作为起点，第四次工业革命或者是智能制造才刚刚开始。一次工业革命需要几十年甚至上百年，用这个标准来判断有没有真正意义上的智能工厂，我认为是没有的。我们要实事求是，自动化不是智能化，这是两件事情。我国90%以上企业还没有实现数字化。因此建议我们多作数字化，探讨智能化，少谈智慧化更好、更务实。

未来我们将面临几个重大的工业变革：第一个是人机分工，人和机器，包括加工的机器和电脑；第二个虚实分工，哪些部分在赛博空间中完成，哪些部分在物理空间中完成；第三个黑白分工，黑代表复合材料，白代表金属等，这个替代是为了绿色发展来考虑的；第四个加减分工，加代表增材制造，减代表传统金属加工；第五个制服分工，即制造业与服务业的分工。

我们老讲生产型企业转型为生产服务型企业，实际上这两方面是需要互相融合的。生产型企业可以转型为生产服务型企业，服务型企业也可以反向走向制造企业。未来这五个分工带来的智能要素是什么？这一点我们搞人工智能的一定要认真考虑。

来源：走向智能论坛

自适应动态规划

一、引言

最优控制是生产和生活中常见的问题，在工业过程、航空航天、机器人和车辆等许多领域都有广泛的应用，同时也是控制理论的重要组成部分。最优控制能够最大限度地增加效益和最大限度地减少成本、资源的消耗。从数学角度寻找最优控制器相当于解决哈密尔顿—雅可比—贝尔曼（HJB）方程。动态规划（dynamic programming，DP）是求解最优控制问题的有效工具。然而随着系统状态和输入量维度的增加，这种方法的计算量急剧增加，即使是一个简单的问题，也无法通过简单的动态规划方法获得 HJB 方程的全局解析解。这就是动态规划的“维数灾”问题。

1977 年，Werbos 首次提出了一种自适应评价设计方法（ACD）进行前向时间求解动态规划［1］。此后又有许多新的名词出现，如近似动态规划（Approximate Dynamic Programming，ADP），神经动态规划（ Neuron-Dynamic Programming，NDP）、自适应动态规划（ Adaptive dynamic programming，ADP）等，2006 年，美国科学基金会组织的近似动态规划学习研讨会上，将这类统一命名为自适应动态规划 —— ADP。自适应动态规划本质上基于强化学习原理，模拟人通过环境反馈进行学习，近年来被认为是一种非常接近人脑智能的方法。由于其在非线性系统优化控制方面的强大优势而被广泛研究。自适应动态规划方法以传统的动态规划方法为基础。它采用函数近似器如（神经网络）来逼近性能指标函数，利用逼近的性能指标来优化控制律，并最终实现对控制系统的优化。同时，为了得到 HJB 方程的近似解，自适应动态规划算法得到了广泛关注。按实现结构划分，自适应动态规划可以分为启发式动态规划（ HDP）、二次启发式动态规划（ DHP）、全局二次启发式动态规划（ GDHP）、执行依赖启发式动态规划（ ADHDP）、执行依赖二次启发式动态规划（ ADDHP）等。其中执行依赖启发式动态规划和执行依赖双启发式动态规划由于其实现结构不需要模型网络，并且能够在被控对象未知的情况下在线求解最优控制，因此，也被称为 Q 学习。自适应动态规划方法利用执行—评价结构（函数近似结构）来近似性能指标函数和最优控制策略，求解 HJB 方程，有效地克服动态规划的“维数灾”问题［ 2］。

ADP 的实现通常是利用离线或在线数据，采用函数逼近结构估计代价函数或其偏导数，使其逼近动态规划的最优控制律。ADP 以经典的最优控制方法为理论基础，融合了人工智能先进技术，为解决大规模非线性系统优化控制问题提供了新的途径。该方法采用非线性函数结构来近似动态规划中的性能指标函数，为高维复杂非线性系统的最优控制提供了一种切实可行的理论和方法。方法自提出以来，吸引了控制领域大量国内外研究机构的专家学者团队的极大关注和重视并迅速发展，涌现出许多富有意义的研究成果［3-11］。

二、我国的发展现状

目前，一大部分的自适应动态规划求解是在系统模型已知的基础上进行的。对于已知的系统模型又被分成以下两种情况：基于完全已知模型的自适应动态规划，例如在参考文献［12］中，通过广义值迭代来解决连续时间仿射非线性系统的最优跟踪控制问题；基于部分已知模型的自适应动态规划，例如参考文献［13］，为了学习部分已知的动态系统的最优解而提出了一种在线自适应动态规划方法。

随着科学技术特别是信息科学技术的快速发展，我国的工业企业控制系统发生了重大变化。控制系统的规模越来越大，控制系统的非线性程度越来越高，控制系统的多变量、多控制器等因素使得控制系统越来越复杂导致系统机理模型越来越难以建立。对此，基于数据驱动的自适应动态规划无模型控制近两年也得到了很大的发展［14］。解决该问题的思路主要有：基于数据进行系统辨识，利用辨识后的系统进行控制器的设计。例如在参考文献［15］中通过神经网络利用输入输出数据来重构未知系统的动态模型，利用策略迭代求解最优控制问题。基于系统状态和控制信息进行控制器设计，例如参考文献［16］，在系统模型完全未知的情况下，利用包含系统状态信息和控制信息的数据集合通过离线策略迭代的方法设计系统控制器。本身作为无模型的方法，Q学习同样可以被用来解决最优控制问题。例如参考文献［17］，Q学习被用来求解离散时间非仿射非线性系统无模型最优跟踪控制策略。

关于自适应动态规划在应用方面的研究也取得很大的成果。对于离散时间动态性能未知的多智能体系统，一些团队采用数据驱动的自适应动态规划方法来解决最优一致性问题［18］。针对顺序拓扑攻击下的输电网弱点分析，一些文献将自适应动态规划方法应用在智能电网问题中来解决漏电攻击问题，提出了识别关键攻击序列的 Q 学习方法［19］。一些文献通过将自适应动态规划方法应用到汽车的速度控制和燃料控制中，实现汽车的跟踪问题等［20］。由于具有很好的发展前景，越来越多的科研工作者对自适应动态规划方法的研究产生了浓厚的兴趣，也将推动自适应动态规划的发展。

事件驱动的自适应动态规划方法在过去的两年中获得了专家学者的广泛关注［21］。在事件驱动方法中，只有在事件触发时，控制律才进行更新控制。这种方法能够有效地减少最优控制方法的计算量，在一些理论证明后，又能够在很大程度上保持了方法的精确度，大大提升了控制系统的工作效率。参考文献［22］研究了针对非线性连续系统的事件驱动双启发式动态规划方法。在参考文献［23］中，研究者采用事件驱动自适应动态规划方法解决非线性H ∞状态反馈控制问题。参考文献［24］用事件驱动自适应动态规划方法解决了非线性鲁棒状态反馈问题。在应用方面，研究者在参考文献［25］中考虑了电力系统应用中的事件驱动非线性最优调节问题。

面对广泛的对象、复杂的系统，自适应动态规划方法还有很多提升空间，众多国内高校、研究机构也在为完善自适应动态规划方法做着自己的努力，包括结构、算法的改进和发展、算法收敛性和稳定性分析以及 ADP 的应用。

东北大学自动化研究中心提出了一种新的 HDP 迭代算法用来求解带时滞的非线性系统的最优跟踪控制问题。在参考文献［26］中，针对带有外部干扰和输入约束不确定非线性系统，设计了基于自适应动态规划方法的 H ∞跟踪控制器。在参考文献［27］中，针对多时滞线性离散系统，基于坐标变换技术，推导了原系统多时滞的最小延误等效系统，提出了一类新的最优跟踪控制方案。在参考文献［28］中，探讨了利用数据驱动的自适应动态规划方法解决完全未知的动态离散多智能体系统的最优控制问题。参考文献［29］针对非线性大规模互联系统，提出了分散自适应跟踪控制方法。参考文献［30］对于一类具有完全未知动态连续时间非线性系统，应用基于数据的自适应动态规划方法解决其容错控制问题。

中国科学院自动化研究所复杂系统管理与控制国家重点实验室针对自适应动态规划方法在多个方面进行了研究：针对代价函数含折扣因子的一类未知非线性系统，推导出一种基于GDHP的神经最优控制方案，另外，基于GDHP 技术设计了为求解控制受饱和约束的非线性系统的最优控制问题的最优控制器。在参考文献［31］中研究了局部值迭代自适应动态规划方法，并进行了收敛性分析、容许性分析以及终止性分析。此外，在参考文献［32］中还研究了一种新的Q 学习方法，提出了更为简单有效的学习率函数，确保迭代 Q函数能够收敛到最优。同时，应用迭代零和自适应动态规划方法，用于解决非线性系统无限时间的零和问题［33］。此外，研究团队还对自适应动态规划方法的应用推广做出了贡献，参考文献［34］研究了智能电网环境下可再生太阳能发电系统的最优储能控制系统，以及电池能源管理控制系统。参考文献［35］研究了基于自适应动态规划方法的容错控制系统。为了适应更复杂的非线性系统，在参考文献［36］中还研究了基于自适应动态规划针对不确定非线性系统的鲁棒控制。另外，参考文献［12］中还提出了广义自适应动态规划方法，揭示了策略迭代与值迭代的本质区别与联系，使研究者更好的理解自适应动态规划方法。参考文献［37］研究了基于数据的策略梯度自适应动态规划方法。

还有很多其他国内高校及研究机构发表了众多研究成果：针对非线性多项式系统，提出了一种新的策略迭代 ADP 算法［38］，这种算法简化了解决HJB 方程的问题，并且不需要神经网络近似结构，显著地提高了计算速度。同时，还证明了这种算法能够使一般的多项式系统全局稳定。提出了一种自适应能量管理策略［39］，实现了对发电机、电池和插入式混合动力电动汽车超级电容器能源的优化配置。研究了具有非线性动态不确定性的连续时间不确定系统的自适应最优输出反馈问题［40］。基于策略迭代和值迭代方法，采用基于输出反馈的数据驱动ADP 控制策略。不同于现有 ADP 算法，所得到的自适应和最优输出反馈控制器来自采样系统。这种方法对动态系统的不确定性具有鲁棒性。在小增益条件下，系统是全局渐近稳定的。将平均能源调度问题定义为一个无限时间的马尔可夫决策过程，采用在线 ADP 方法使得性能指标最大化［41］。

三、国外发展现状

近年来，国外众多高校和研究机构的专家学者对 ADP 的发展也做出了许多的贡献。美国罗德岛大学的研究团队在参考文献［42］中研究了新的自适应动态规划方法结构，包括 GrADP 方法以及 GrDHP，并进行了收敛性的理论分析。团队还实现了自适应动态规划方法的应用研究：参考文献［43］将扰动和参数不确定性考虑在负载频率控制模型中，提出了电力系统负荷频率控制的改进滑模综合自适应学习策略。参考文献［44］建立了连续时间输入仿射系统智能计算控制设计与应用的框架，以达到减少干扰影响的目的。

美国得克萨斯大学阿灵顿分校的团队在参考文献［45］研究了基于自适应动态规划的“脱策”方法，用于解决非线性连续系统的多人非零和游戏问题。参考文献［46］应用“脱策”自适应动态规划方法解决异构线性多智能体系统的最优输出同步问题。

密苏里大学的研究团队研究了非线性离散系统的事件驱动近似最优控制方法，他们的研究更注重的是自适应动态方法中的神经网络，在参考文献［47］中讨论了神经网络中权值的收敛性。在参考文献［48］中针对仿射非线性连续系统进行了研究，提出了基于事件驱动采样自适应动态规划的近似最优控制方法。参考文献［49］提出了一种基于事件驱动的随机自适应动态规划技术，用于反馈回路中具有通信网络的非线性系统。在参考文献［50］中，通过自适应动态规划方法，研究了基于输出反馈的不确定耦合半线性抛物型偏微分方程的边界控制。

四、国内外发展比较

综合国内外自适应动态规划领域的研究发展现状，可以看出自适应动态规划已经成为控制科学领域的重要组成部分，其在解决动态规划“维数灾”难题和最优控制问题上有着不可替代的作用。目前，国内的专家学者主要研究的是自适应动态规划方法理论，并不断提出新的方法，以弥补现有方法的不足。同时，也注重自适应动态规划方法的应用，在智能电网、工业过程等领域都有广泛的涉足。在国外专家学者的研究成果中，有对自适应动态规划方法中神经网络部分的深入研究，但更多的是与实际应用系统的结合，例如，用自适应动态规划方法解决多智能体等系统的最优化问题。可以说，国内的专家学者在理论上为自适应动态规划方法提供强有力的支撑，国外的专家学者更多的将自适应动态规划方法推广到应用中。

五、我国发展趋势与对策

自适应动态规划已经渐渐成为解决复杂系统最优问题的必备工具，也将对控制领域产生更深远的影响。但目前的自适应动态规划的众多方法还有许多不足之处，比如，自适应动态规划目前主要针对无限时间域非时变系统的最优控制问题，而对于时变系统研究较少。另外，自适应动态规划方法的计算量可以进一步的缩减，计算时间可以进一步的节约，尤其需要研究有限时间的自适应动态规划方法，对实际应用有重大意义。自适应动态规划方法也可以针对更多对象、更多系统发挥其作用，对实际应用有很好的指导价值与意义。另一方面，社会复杂性将在复杂系统优化控制问题中占据越来越重要的地位，平行动态规划方法（parallel dynamic programming，PDP）是基于自适应动态规划的基本想法，结合平行控制的 ACP 方法，是在工程复杂性和社会复杂性并存的情况下，通过对平行系统的描述解析、预测解析和引导解析，实现对复杂系统管理和控制的新途径。因此，平行动态规划方法有效结合工程复杂性与社会复杂性，将成为自适应动态规划方法发展的重要方向。

参考文献

［1］ Werbos P J. Advanced Forecasting Methods for Global Crisis Warning and Models of Intelligence［J］．General Systems Yearbook，1977，22（6）：25-38.

［2］ Richard. Dynamic Programming［M］．Princeton University Press，1957.

［3］ Wei Q，Liu D，Lin H. Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems［J］．IEEE Transactions on Cybernetics，2016，46（3）：840-853.

［4］ Wang D，Liu D，Zhang Q，et al. Data-Based Adaptive Critic Designs for Nonlinear Robust Optimal Control With Uncertain Dynamics［J］．IEEE Transactions on Systems Man & Cybernetics Systems，2016，46（11）：1544- 1555.

［5］ Wang Z，Ding S，Huang Z，et al. Exponential Stability and Stabilization of Delayed Memristive Neural Networks Based on Quadratic Convex Combination Method［J］．IEEE Transactions on Neural Networks & Learning Systems， 2015，27（11）：2337-2350.

［6］ Sun Q，Zhang Y，He H，et al. A Novel Energy Function-Based Stability Evaluation and Nonlinear Control Approach for Energy Internet［J］．IEEE Transactions on Smart Grid，2017，8（3）：1195-1210.

［7］ Xu X，Huang Z，Zuo L，et al. Manifold-Based Reinforcement Learning via Locally Linear Reconstruction［J］． IEEE Transactions on Neural Networks & Learning Systems，2017，28（4）：934-947.

［8］ Cai H，Lewis F L，Hu G，et al. The Adaptive Distributed Observer Approach to the Cooperative Output Regulation of Linear Multi-Agent Systems［J］．Automatica，2017，75：299-305.

［9］ Nasirian V，Shafiee Q，Guerrero J M，et al. Droop-Free Distributed Control for AC Microgrids［J］．IEEE Transactions on Power Electronics，2016，31（2）：1600-1617.

［10］ Sahoo A，Xu H，Jagannathan S. Adaptive Neural Network-Based Event-Triggered Control of Single-Input Single- Output Nonlinear Discrete-Time Systems［J］．IEEE Transactions on Neural Networks & Learning Systems， 2016，27（1）：151-164.

［11］ Narayanan V，Jagannathan S. Event-Triggered Distributed Approximate Optimal State and Output Control of Affine Nonlinear Interconnected Systems［J］．IEEE Transactions on Neural Networks & Learning Systems，2017，PP（99）： 1-11.

［12］ Lin Q，Wei Q，Liu D. A Novel Optimal Tracking Control Scheme for a Class of Discrete-Time Nonlinear Systems Using Generalised Policy Iteration Adaptive Dynamic Programming Algorithm［J］．International Journal of Systems Science，2017，48（3）：1-10.

［13］ Zhu Y，Zhao D，He H，et al. Event-Triggered Optimal Control for Partially-Unknown Constrained-Input Systems via Adaptive Dynamic Programming［J］．IEEE Transactions on Industrial Electronics，2016，PP（99）：1-1.

［14］ Liu D，Wei Q. Finite-Approximation-Error-Based Optimal Control Approach for Discrete-Time Nonlinear Systems

［J］．IEEE Transactions on Cybernetics，2012，43（2）：779-789.

［15］ Wei Q，Song R，Yan P. Data-Driven Zero-Sum Neuro-Optimal Control for a Class of Continuous-Time Unknown Nonlinear Systems With Disturbance Using ADP［J］．IEEE Transactions on Neural Networks & Learning Systems， 2016，27（2）：444-458.

［16］ Song R，Lewis F L，Wei Q. Off-Policy Integral Reinforcement Learning Method to Solve Nonlinear Continuous- Time Multiplayer Nonzero-Sum Game［s J］．IEEE Transactions on Neural Networks & Learning Systems，2016（99）： 1-10.

［17］ Luo B，Liu D，Huang T，et al. Model-Free Optimal Tracking Control via Critic-Only Q-Learning［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，27（10）：2134-2144.

［18］ Zhang H，Jiang H，Luo Y，et al. Data-Driven Optimal Consensus Control for Discrete-Time Multi-Agent Systems With Unknown Dynamics Using Reinforcement Learning Method［J］．IEEE Transactions on Industrial Electronics，2017，64（5）：4091-4100.

［19］ Yan J，He H，Zhong X，et al. Q-Learning-Based Vulnerability Analysis of Smart Grid Against Sequential Topology Attacks［J］．IEEE Transactions on Information Forensics & Security，2017，12（1）：200-210.

［20］ Gao W，Jiang Z P，Ozbay K. Data-Driven Adaptive Optimal Control of Connected Vehicles［J］．IEEE Transactions on Intelligent Transportation Systems，2017，18（5）：1122-1133.

［21］ Zhang Q，Zhao D，Wang D. Event-Based Robust Control for Uncertain Nonlinear Systems Using Adaptive Dynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，PP（99）：1-14.

［22］ Dong L，Sun C，He H. Dual heuristic dynamic programming based event-triggered control for nonlinear continuous-time systems［C］// International Joint Conference on Neural Networks. 2016：4241-4248.

［23］ Wang D，He H，Liu D. Improving the Critic Learning for Event-Based Nonlinear H ∞ Control Design［J］．IEEE Transactions on Cybernetics，2017：1-12.

［24］ Wang D，Mu C，Zhang Q，et al. Event-based input-constrained nonlinear H ∞ state feedback with adaptive critic and neural implementation［J］．Neurocomputing，2016，214：848-856.

［25］ Wang D，He H，Zhong X，et al. Event-Driven Nonlinear Discounted Optimal Regulation Involving A Power System Application［J］．IEEE Transactions on Industrial Electronics，2017，PP（99）：1-10.

［26］ Cui X，Zhang H，Luo Y，et al. Adaptive Dynamic Programming for H ∞ Tracking Design of Uncertain Nonlinear Systems with Disturbances and Input Constraints［J］．International Journal of Adaptive Control & Signal Processing，2017（5）.

［27］ Liu Y，Zhang H，Luo Y，et al. ADP Based Optimal Tracking Control for A Class of Linear Discrete-Time System with Multiple Delays［J］．Journal of the Franklin Institute，2016，353（9）：2117-2136.

［28］ Zhang K，Zhang H，Jiang H，et al. Data-driven Optimal Control for a Class of Unknown Continuous-Time Nonlinear System Using a Novel ADP Method［C］// International Conference on Intelligent Control & Information Processing. IEEE，2017：117-124.

［29］ Qu Q，Zhang H，Feng T，et al. Decentralized Adaptive Tracking Control Scheme for Nonlinear Large-Scale Interconnected Systems via Adaptive Dynamic Programming［J］．Neurocomputing，2017，225：1-10.

［30］ Jiang H，Zhang H，Liu Y，et al. Neural-Network-Based Control Scheme for a Class of Nonlinear Systems with Actuator Faults via Data-Driven Reinforcement Learning Method［J］．Neurocomputing，2017，239：1-8.

［31］ Wei Q，Lewis F L，Liu D，et al. Discrete-Time Local Value Iteration Adaptive Dynamic Programming： Convergence Analysis［J］．IEEE Transactions on Systems Man & Cybernetics Systems，2016（99）：1-17.

［32］ Wei Q，Lewis F L，Sun Q，et al. Discrete-Time Deterministic $Q$ -Learning：A Novel Convergence Analysis［J］． IEEE Transactions on Cybernetics，2016，47（5）：1224-1237.

［33］ Wei Q，Liu D，Lin Q，et al. Adaptive Dynamic Programming for Discrete-Time Zero-Sum Games［J］．IEEE Transactions on Neural Networks & Learning Systems，2017（99）：1-13.

［34］ Wei Q，Liu D，Lewis F L，et al. Mixed Iterative Adaptive Dynamic Programming for Optimal Battery Energy Control in Smart Residential Microgrids［J］．IEEE Transactions on Industrial Electronics，2017，64（5）： 4110-4120.

［35］ Zhao B，Liu D，Li Y. Observer Based Adaptive Dynamic Programming for Fault Tolerant Control of a Class of Nonlinear Systems［J］．Information Sciences，2016，384：21-33.

［36］ Huang Y，Wang D，Liu D. Bounded Robust Control Design for Uncertain Nonlinear Systems Using Single-Network Adaptive Dynamic Programming［J］．Neurocomputing，2017，266：128-140.

［37］ Luo B，Liu D，Wu H N，et al. Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control［J］． IEEE Transactions on Cybernetics，2017（99）：1-14.

［38］ Jiang Y，Jiang Z P. Global Adaptive Dynamic Programming for Continuous-Time Nonlinear Systems［J］．IEEE Transactions on Automatic Control，2015，60（11）：2917-2929.

［39］ Zhang S，Xiong R. Adaptive Energy Management of a Plug-In Hybrid Electric Vehicle Based on Driving Pattern Recognition and Dynamic Programming［J］．Applied Energy，2015，155：68-78.

［40］ Gao W，Jiang Y，Jiang Z P，et al. Output-feedback Adaptive Optimal Control of Interconnected Systems Based on Robust Adaptive Dynamic Programming［J］．Automatica，2016，72：37-45.

［41］ Xie S，Zhong W，Xie K，et al. Fair Energy Scheduling for Vehicle-to-Grid Networks Using Adaptive Dynamic Programming［J］．IEEE Transactions on Neural Networks & Learning Systems，2016，27（8）：1697-1707.

［42］ Zhong X，Ni Z，He H. Convergence Analysis of GrDHP-based Optimal Control for Discrete-Time Nonlinear System［C］// International Joint Conference on Neural Networks. 2016：4557-4564.

［43］ Mu C，Tang Y，He H. Improved Sliding Mode Design for Load Frequency Control of Power System Integrated an Adaptive Learning Strategy［J］．IEEE Transactions on Industrial Electronics，2017，64（8）：6742-6751.

［44］ Wang D，He H，Mu C，et al. Intelligent Critic Control With Disturbance Attenuation for Affine Dynamics Including an Application to a Microgrid System［J］．IEEE Transactions on Industrial Electronics，2017，64（6）：4935- 4944.

［45］ Song R，Lewis F L，Wei Q. Off-Policy Integral Reinforcement Learning Method to Solve Nonlinear Continuous- Time Multiplayer Nonzero-Sum Game［s J］．IEEE Transactions on Neural Networks & Learning Systems，2016（99）： 1-10.

［46］ Modares H，Nageshrao S P，Lopes G A D，et al. Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning［J］．Automatica，2016，71（C）：334-341.

【AI-CPS】【智能制造】软件定义创新工业范式

正文

自适应动态规划

请到「今天看啥」查看全文