http://wenku.baidu.com/view/de82322d2af90242a895e588.html
强化学习
百科名片
强化学习(reinforcement
learning,又称再励学习,评价学习)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised
learning)、监督学习(supervised leaning)和强化学习。
简介 所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)
函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
基本模型和原理 强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本原理是:
如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。
强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化
信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
网络模型设计 每一个自主体是由两个神经网络模块组成,即行动网络和评估网络。行动网络是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。
设计考虑 一,如何表示状态空间和动作空间。二,如何选择建立信号以及如何通过学习来修正不同状态-动作对的值。三如何根据这些值来选择适合的动作。用强化学习方法研究未知环境下的机器人导航,由于环境的复杂性和不确定性,这些问题变得更复杂。
标准的强化学习,智能体作为学习系统,获取外部环境的当前状态信息s,对环境采取试探行为u,并获取环境反馈的对此动作的评价r和新的环境状态
。如果智能体的某动作u导致环境正的奖赏(立即报酬),那么智能体以后产生这个动作的趋势便会加强;反之,智能体产生这个动作的趋势将减弱。在学习系统的控制行为与环境反馈的状态及评价的反复的交互作用中,以学习的方式不断修改从状态到动作的映射策略,以达到优化系统性能目的。
目标 学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)最佳。
学习的强化-学习的强化
强化是指一件事物提高了某一刺激所引起的反应出现的概率,使之在同样条件下再度发生;从神经机制说,是指一个神经过程增强了另一神经过程的强度和效应。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
什么是机器学习 计算机程序如何随着经验积累自动提高性能 系统自我改进的过程 历史 成功应用 学习识别人类讲话 学习驾驶车辆 学习分类新的天文结构 学习对弈西洋双陆棋 | |
|
|
3楼
如果一个计算机针对某类任务T的用P衡量的性能根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。 西洋跳棋学习问题的解释 E,和自己下棋 T,参与比赛 P,比赛成绩(或赢棋能力,击败对手的百分比) 手写识别学习问题 机器人驾驶学习问题 |
|
|
4楼
甚至包括了以非常直接的方式通过经验自我提高的计算机程序 实际的机器学习问题往往比较复杂 定义一类问题 探索解决这类问题的方法 理解学习问题的基本结构和过程 |
|
|
6楼
任务T,下西洋跳棋 性能标准P,击败对手的百分比 训练经验E,和自己进行训练对弈 学习系统需要选择 要学习的知识的确切类型 对于这个目标知识的表示 一种学习机制 |
|
|
7楼
第二个重要属性,学习器在多大程度上控制样例序列 第三个重要属性,训练样例的分布能多好地表示实例分布,通过样例来衡量最终系统的性能 |
|
|
8楼
ChooseMove: BM,接受合法棋局集合中的棋盘状态作为输入,并从合法走子集合中选择某个走子作为输出 问题转化 我们把提高任务T的性能P的问题转化(或简化)为学习像ChooseMove这样某个特定的目标函数 |
|
|
9楼
学习问题很直观地转化成这个函数 这个函数的学习很困难,因为提供给系统的是间接训练经验 另一个目标函数V 一个评估函数,V: BR,它为任何给定棋局赋予一个数值评分,给好的棋局赋予较高的评分 优点,学习简单 V的应用 根据V能够轻松地找到当前棋局的最佳走法。 |
|
|
10楼
如果b是一最终的胜局,那么V(b)=100 如果b是一最终的负局,那么V(b)=-100 如果b是一最终的和局,那么V(b)=0 如果b不是最终棋局,那么V(b)=V(b’),其中b’是从b开始双方都采取最优对弈后可达到的终局 |
|
|
11楼
递归定义 运算效率低 不可操作 简评 学习任务简化成发现一个理想目标函数V的可操作描述。 通常要完美地学习这样一个V的可操作的形式是非常困难的。 一般地,我们仅希望学习算法得到近似的目标函数V’,因此学习目标函数的过程常称为函数逼近。 |
|
|
13楼
一方面,我们总希望选区一个非常有表现力的描述,以最大可能地逼近理想的目标函数 另一方面,越有表现力的描述需要越多的训练数据,使程序能从它表示的多种假设中选择 |
|
|
14楼
x1,黑子的数量 x2,红子的数量 x3,黑王的数量 x4,红王的数量 x5,被红子威胁的黑子数量 x6,被黑子威胁的红子数量 |
|
|
15楼
V(b)=w0+w1x1+w2x2+…+w6x6 其中,w0…w6是权值,表示不同棋局特征的相对重要性 至此,问题转化为学习目标函数中的系数(即权值) |
|
|
16楼
<b,Vtrain(b)> b是棋盘状态,Vtrain(b)是训练值 比如,<<x1=0,x2=0,x3=1,x4=0,x5=0,x6=0>,100> 训练过程 从学习器可得到的间接训练经验中导出上面的训练样例 调整系数wi,最佳拟合这些训练样例 |
|
|
17楼
困难处 一个简单的方法,Vtrain(b)=V’(Successor(b)) 调整权值 最佳拟合的定义,比如误差平方和最小 寻找算法,比如最小均方法,LMS Least Mean Squares |
|
|
18楼
用学会的目标函数来解决给定的任务 鉴定器 以对弈的路线或历史记录作为输入,输出目标函数的一系列训练样例。 泛化器 以训练样例为输入,产生一个输出假设,作为它对目标函数的估计。 实验生成器 以当前的假设作为输入,输出一个新的问题,供执行系统去探索。 |
|
|
19楼
第13章理论上的保证 这种学习技术是否确保发现一个非常接近的近似。 更复杂的目标函数 其他学习算法 最近邻算法,存储训练样例,寻找保存的最接近的情形来匹配新的情况 遗传算法,产生大量候选的西洋跳棋程序,让它们相互比赛,保留最成功的程序并进一步用模拟进化的方式来培育或变异它们 基于解释的学习,分析每次成败的原因 |
|
|
20楼
机器学习问题归结于搜索问题 本书给出了对一些基本表示定义的假设空间的搜索算法 通过搜索策略和搜索空间的内在结构来刻画学习方法 |
|
|
21楼
多少训练数据是充足的?怎样找到学习到假设的置信度与训练数据的数量及提供给学习器的假设空间特性之间的一般关系? 学习器拥有的先验知识是怎样引导从样例进行泛化的过程的?当先验知识仅仅是近似正确时,它们会有帮助吗? 关于选择有效的后验训练经验,什么样的策略最好?这个策略的选择会如何影响学习问题的复杂性。 怎样把学习任务简化为一个或多个函数逼近问题?换一种方式,系统该试图学习哪些函数?这个过程本身能自动化吗? 学习器怎样自动地改变表示法来提高表示和学习目标函数的能力? |
|
|
22楼
第3章,决策树 第4章,人工神经网络 第5章,统计和估计理论的基础概念 第6章,贝叶斯理论 第7章,计算学习 第8章,基于实例的学习 第9章,遗传算法 第10章,规则学习 第11章,基于解释的学习 第12章,近似知识与现有数据的结合 第13章,增强学习 |
|
219.131.221.* |
25楼
|
|
|
27楼
不过从吧主引述我们可以看出,目前所谓的计算机学习不是对人类智能学习过程的真正模拟,而是使程序对某些人为设定的目标的靠拢。因此这种学习我认为是对人类学习概念的歪曲。 尽管目前世界上已经有十几万人投入这项理论的研究。而且它在小的应用方面可以由一些成果。但是我认为由于它与人类学习相差很远,所以对模拟人类智能的促进作用不会太大。 这也是在网友没事少抽烟的主题“俞士汶教授谈中文语言处理”中对那里提到的学习表示疑虑的原因。因为我不相信,在计算机学习理论(也叫机器学习)的影响下,学习概念已经被歪曲,他们会搞出与人类相近的学习来。 |
|
|
28楼
前者是通过计算(不一定是数字计算)把步骤(即棋步)与胜利联系起来。当系统里储存大量这类相关数据后,系统便可以调用此类数据应付对手,而最后的胜利表现为谁使用的步骤与胜利接近,谁就会胜利。 而棋势则是一种对大趋势的判断,它不需要复杂的计算,只凭简单的棋局图形就可以确定胜负前景。从非线性动力学的角度看,胜负棋势很类似于一些吸引子。 如果用纯数学手段解决棋势的产生,是会很复杂的。但是我在学习新棋类时,仅凭几次胜负棋局,估计哪种棋局是胜局棋势,哪种棋局是负局棋势,然后再经过一些对弈检验估计的正确与否。很快就掌握了一些棋势(实际是死记硬背下那些棋势),然后在下棋中使步骤向胜局棋势靠拢,便较快地掌握主动权。遇到新的胜负棋势,再死记它们就可以了。 这表明人类学习有一些比计算机学习理论更加简洁的操作。来发现非线性动力学系统的吸引子。使人类确定棋类胜负的速度加快。直接模拟人类学习过程,比计算机学习理论搞些什么乱七八糟的函数、搜索法要方便,有效。 通常人们讽刺笨人的一句话叫“舍近求远”。计算机学习理论就有点这种笨人作风。明明设计一个不依赖数学的可学习系统并不困难,但是他们以为那不合他们的口味,于是走远路搞一个乱七八糟的学习理论,越走毛病越多。 如果搞计算机科学不是为了应用,仅仅是为了理论完美,那大可向陈景润先生一样,倾一生精力去证明哥德巴赫猜想。但是计算机科学作为实用科学,放弃对人类学习的实际模拟,去搞数学理论完美的花架子,就太不应该了。 |
|
|
29楼
计算机学习理论则不同,它把学习本身看成是一些算法,把系统和系统外的学习环境用一种算法混杂在一起。把系统如何解决问题与系统的学习混淆在一起。因此它在思路上是混乱的,在方法上是单一的,受限于算法的。 比如蚁群算法、遗传算法、人工神经网络算法都是计算机学习理论中很时髦的算法。但是每个算法都限定了程序的工作方式。不说具体设计程序时还会遇到不收链的问题,就其解决问题方式的单一性来说,也不可能像人类解决问题那样灵活。 对于模拟人类学习的系统来说就不会这样。系统的可学习性并没有任何解决问题的方法。系统的可学习性(算法)只保证系统能够在学习中不断的编写出各种程序的算法(自编程序)。因此这个没有具体解决任何问题方法的可学习性算法,就是一个能够得出各种算法的算法。是由系统自己解决算法问题的算法。 因此我们才说模拟人类学习过程的学习,才是很正意义的学习。而计算机学习理论的所谓的机器学习,是一种假冒的学习。 |
|
|
30楼
人工神经网络的学习模型是感知器,它相当于(用神经元构成的网络)模拟桑代克实验的尝试错误学习。这一步思路并没有什么错误。 进而,他们用基本神经网络模型构建出复杂网络模型,这些复杂网络模拟虽然很有些人为性,但是作为对神经网络结构的探索,由假设模型出发,也未尝不是一种方法,因此这一步也是无可指责的。 他们根据神经元在神经活动中的变化假设出一种权值,通过学习修改它,以使模拟神经网络产生一些功能,虽然假设的范围步步扩大,但是考虑到学习中总要引起系统的一些变化,以表现学习的成果,这一步也可以允许。 然而他们后面的动作就变得十分可疑,他们开始把一些复杂的工作交给这个模拟神经网络来做。例如通过训练进行识别。其可疑之处在于:这样简单的(相对于人脑的真实神经网络)网络怎么能代替人脑处理那样复杂的问题。 然而人们竟然成功了。它比通过计算实现的识别要简洁和成功率高。于是人们被人工神经网络的神奇功能惊呆了。 |
|
没有评论:
发表评论