1.学习控制(Learning Control)概念
学习控制,面对更大的不确定性。是靠自身的学习功能来认识控制对象和外界环境的特性,并相应地改变自身特性以改善控制性能的系统。它具有一定的识别、判断、记忆和自行调整的能力。能在其运行过程中逐步获得受控过程及环境的非预知信息,积累控制经验,并在一定的评价标准下进行估值、分类、决策和不断改善系统品质。
学习控制的学习方式分为受监视学习和自主学习两类。
受监视学习这种学习方式除一般的输入信号外,还需要从外界的监视者或监视装置获得训练信息。所谓训练信息,是用来对系统提出要求或者对系统性能做出评价的信息。如果发现不符合监视者或监视装置提出的要求,或受到不好的评价,系统就能自行修正参数、结构或控制作用。不断重复这种过程直至达到监视者的要求为止。当对系统提出新的要求时,系统就会重新学习。
自主学习简称自学习。这是一种不需要外界监视者的学习方式。只要规定某种判据(准则),系统本身就能通过统计估计、自我检测、自我评价和自我校正等方式不断自行调整,直至达到准则要求为止。这种学习方式实质上是一个不断进行随机尝试和不断总结经验的过程。因为没有足够的先验信息,这种学习过程往往需要较长的时间。
在实际应用中,为了达到更好的效果,常将两种学习方式结合起来。学习控制系统按照所采用的数学方法而有不同的形式,其中最主要的有采用模式分类器的训练系统和增量学习系统。在学习控制系统的理论研究中,贝叶斯估计、随机逼近方法和随机自动机理论,都是常用的理论工具。
2.学习控制发展
学习控制的设想与研究始于20世纪50年代,学习机就是运用学习控制的一例,是一种模拟人的记忆与条件反射的自动装置。下棋机是学习机早期研究阶段的成功例子。
20世纪60年代发展了自适应和自学习等方法。另一类基于模式识别的学习控制方法也用于学习控制系统。研究基于模式识别的学习控制的第三种方法是利用Bayes学习估计方法。
20世纪80年代提出了反复学习控制及重复学习控制,并获得发展。
学习控制有4个主要功能,即搜索、识别、记忆、推理。在学习系统研制初期,对搜索和识别方面研究较多,而对记忆和推理的研究还是薄弱环节。为此,傅京孙提出了需要进一步深入的课题:
1)在非稳定环境中的学习。大多数学习算法仅在稳定的环境中有效,若把一个非稳定环境近似为若干个稳定的环境,则可应用模式识别等技术加以解决。
2)提高学习效率。多数算法都需要较长时间,不适于快速响应系统的控制,可增加有利的先验知识加以改进。
3)结束规则(stopping rule)。若系统已达到指定的要求,则需要有适当的结束规则,以缩短学习时间。
4)学习系统的多级结构。对不同复杂程度的环境信息分别用不同的学习算法处理,且处于不同层次,高一级中的学习品质取决于低一级中一个或几个学习机构所获得的信息。
5)把模糊数学用于学习系统。
6)直觉推理的应用。很多(包括复杂的)控制问题,有时只需要用直觉推理方法就可解决。
7)文法推理。近年来,控制理论正向广度和深度发展,把人工智能技术应用于自动控制取得了可喜的成果。Saridis提出了很多有关学习控制的新的思想方法。Astrom等在以“专家控制”为题的开拓性论文中指出,用专家系统的方法实现工程控制中存在的很多启发式逻辑推理,可使常规控制系统得到简化,并获得新的功能等。
3.学习控制结构
学习控制最有效的途径仍是仿人和吸收人工智能的研究成果。近年来,仿人智能控制器的研究已初见成效。智能控制算法的基本思想是仿人的学习、在线特征辨识、特征记忆、直觉推理和多模态控制策略等,而在结构上是分层的。
一个通用的仿人智能控制器(SHIC)应具有在线特征辨识的分层递阶结构,如图4-64所示。图中,主控制器MC和协调器K构成运行控制级;自校正器ST构成控制参数自校正器;自学习器SL构成控制规则组织级。MC、ST和SL分别具有各自的在线特征辨识器CI、规则库RB和推理机IE,SL还有作为学习评价标准的性能指标库PB。3个层级共用1个公共数据库CDB,以进行密切联系和快速通信。各层级的信息处理和决策过程分别由3个三元序列{A,CM,F}、{B,TM,H}和{C,LM,L}描述。
(www.xing528.com)
图4-64 一个多级学习控制系统
来自指令R、系统输出γ和偏差E等在线信息,分别送到MC和ST的CI1和CI2,与相应的特征模型A(系统动态运行特征集)及B(系统动态特性变化特征集)进行比较和辨识,并通过IE1和IE2内的产生式规则集F和H映射到控制模式集CM和参数校正集TM上,产生控制输出U′和校正参数M′。U′经协调器K形成受控对象G的输入向量U,而M′则输入到CDB,以取代原控制参数M。
对于执行控制级的MC和参数校正级的ST,{A,CM,F}和{B,TM,H}均为由设计者赋给的或由SL形成的先验知识,分别存放在规则库RB1、RB2和CDB中。SL中的RB3是控制器的总数据库,用于存放控制专家经验集{C,LM,L},它包含{A,CM,F}和{B,TM,H},选择、修改和生成规则以及学习效果的评判规则。其中,存放的性能指标包括总指标集PA和子指标集PB。PA由用户给定,PB则为PA的分解子集,由CI3的特征辨识结果选择与组合,作为不同阶段和不同类型对象学习的依据。
学习过程分为启动学习和运行学习两种。启动学习过程是控制器起动后初始运行的学习,它反复依据当前特征状态C,前段运行效果的特征记忆D以及相应问题求解的子指标集PB之间的关系,确定MC的{A,CM,F}和ST的{B,TM,H},即
IF<C,D,PB>
THEN{A,CM,F}AND{B,TM,H}
运行学习过程是指控制运行中对象类型变化时的自学习过程。首先,SL从反映对象类型变化的特征集C′确定出新的子指标集PB′,然后依据特征记忆D′来增删或修改{A,CM,F}和{B,TM,H},即
IFC′THENPB′
IF<C′,D′,PB′>
THEN{A′,CM′,F′}AND{B′,TM′,H′}
学习过程结束后,ST就停止工作,处于监视状态。对于受控对象类型不变时参数和环境的不确定性变化,由MC和ST来实现快速自校正。
仿人智能控制器实时运行时,实现高品质、快速自适应和自学习控制的关键在于在线信息处理和决策的速度。为此,需要从硬件和软件两方面来解决。硬件方面除采用高速微处理芯片外,可设计并行运算的多CPU控制技术来支持分层递阶信息处理和决策机制。软件方面则要充分发挥特征辨识、特征记忆和直觉推理等作用,减少规则数,缩小搜索空间,以减少信息处理量。
按照上述智能控制器的设计思想,学习控制系统的设计应遵循下列基本原则:
1)控制系统应具有分层信息处理和决策能力。
2)控制器应具有在线特征辨识和特征记忆的功能。当被控对象的数学模型不完全清楚,且处于快速瞬变过程时,现有的系统辨识算法难以满足实时控制的要求。而在仿人智能控制中,往往只需要有限的反映受控对象特性的动态特征量,就能满足控制要求。另外,通过特征记忆,可以积累有用的信息,使控制决策更有预见性。
3)控制器应具有多模态控制。在研究人的手动控制行为时可以发现,人的控制策略是多模态的和开闭环结合的控制方式。仿人控制具有类似的控制方式。
4)应用直觉推理逻辑,使控制器的决策更灵活和迅速,以提高自学习效率。
4.学习控制应用
学习控制要用到仿人智能,这将在下一小节作简要说明。而在PLC控制中,学习控制不一定就那么复杂,但实实在在存在着如何通过学习、提高PLC的控制质量及效率的问题。有这么几方面应用:
最简单的,如:十字路口的红绿灯怎么变换才算好?可否通过学习,选定各方向的红绿灯亮、灭的合理时间分配?可否设定一个评价标准,在PLC实施实际控制的同时,收集数据,不断按这个标准进行评价,并依据评价结果确定转换时间。直至还可边学习,边改进。直到最合理。
再如:示教控制。可先由人工,运行程序。PLC把人工操作记录下来。第二次,PLC将按记录的程序,自行操作。这样的学习程序PLC是完全可做到的,也是较常用的等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。