斯金纳操作学习理论B·F·斯金纳(Burrhus Frederick Skinner,1904~1990)是操作学习理论的创始人和行为矫正技术的开创者。
他是美国新行为主义的主要代表,也是在所有新行为主义者中,在坚持行为主义基本立场方面最激进的一位,同时,也是对当今心理学影响最大、最重要的新行为主义者。
他最有影响的主张集中体现在他的操作学习理论。
一、操作学习理论的提出:在斯金纳之前,心理学家们就已经用刺激——反应联结对学习作出解释,如华生认为学习就是“以一种刺激替代另一种刺激建立条件反射的过程”;①又如,桑代克提出的尝试——错误学习(trial-error learning)理论,认为学习的实质是“通过‘尝试’在一定的情景与特定的反应之间建立某种联结”②斯金纳指出,虽然,某些人类的行为正如之前的心理学家们说的那样,是由特定的刺激引起的,但是,这些只能解释所有人类行为的一小部分,于是他提出了另外一类行为,称之为操作性行为,因为它们是在环境中缺乏明显的无条件刺激物时操作的。
斯金纳的工作主要集中在行为与后果的关系上,并由此提出了对教育实践起巨大影响的学习理论——操作学习理论。
二、斯金纳操作学习理论的基本观点:(一)经典实验——斯金纳箱(Skinner box):20世纪30年代后期,斯金纳改进了桑代克的迷笼,设计了“斯金纳箱”,并用来研究各种动物(如白鼠与鸽子)的行为。
此箱去掉了所有无关刺激,通常内设一杠杆,杠杆与一食物仓相连,动物(如白鼠)偶然地一按杠杆,食物仓便打开,落下一食物小丸于食物盘内,箱外有一记录器,可记录白鼠按压杠杆的速度。
实验中,动物从初始的混乱动作中无意地碰到杠杆而得到食物,从而学会了按压杠杆与得到食物之间的联结。
通过更为复杂的设计,动物还可以学会分化行为,如当灯亮时按杠杆可以得到食物,而灯灭时按杠杆得不到食物,于是,动物学会了只在灯亮时按压杠杆。
(二)两种类型的学习:从对动物的研究中,斯金纳认为,行为分为两类:应答性行为和操作性行为。
应答性行为是由已知的刺激引起的;操作性行为则是由有机体自身发出的。
无条件反应是一种应答性行为,因为它们是无条件刺激所引起,而在日常生活中操作性行为是我们行为中的大部分。
要强调的是,斯金纳并不是指操作性行为不依赖于刺激作用而产生,而是说刺激引起这种行为是不知道的,而且去了解其原因也是不重要的。
操作性行为不是取决于其事先的刺激,而是由其结果所控制。
与两类行为相应,斯金纳把条件反射也分作两类:一类是由刺激情景引发的反应,是一种不随意的行为,称应答性条件反射(respondents)与经典性条件反射相应,又称刺激性条件反射;另一类是操作性条件反应(operants),又称工具性条件反射,它不是由刺激情景引发的,而是有机体的自发行为,是随意或有目的的。
两种反射的区别见表1:经典条件作用只能用来解释基于应答性行为的学习,斯金纳把这类学习称为“S(刺激)类条件作用”或叫“反射学习”。
另一种学习模式,即操作性或工具性条件作用的模式,则可用来解释基于操作性行为的学习,他称为“R(强化)类条件作用”或叫“操作学习”。
操作学习模式认为,如果一种反应之后伴随一种强化物,那么,在类似环境里发生这种反应的概率就增加。
而且,强化物与实施强化的环境一起,都是一种刺激,我们可以以此来控制反应。
斯金纳认为操作学习与反射学习是不同的。
反射学习是S—R的过程,而操作学习则是(S)—R —S的过程,重要的是跟随反应之后的刺激(强化物),而不是反应之前的刺激。
(三)操作性条件作用的主要规律:1、强化:1.1基本概念:1.1.1强化的含义:强化的概念在桑代克效果律中已有阐述。
但是,在斯金纳的强化理论中,强化所扮演的角色发生了重大的变化。
斯金纳将强化作为一个中性词使用(而不是指奖励),可简单定义为“能增强反应率的效果”③。
1.1.2强化物的含义:强化是指“使反应发生概率增加、或维持某种反应水平的任何刺激”。
④这也就是说,斯金纳认为凡是强化,其结果都是行为概率的增加。
反之,提高反应概率的任何事件都可以起强化作用,强化物也就不一定是一种令人愉快的刺激。
而且,在一种情境中起强化作用的刺激,在另一种情境中并不一定起强化作用。
同样,对某一对象起强化作用的刺激,对另一对象并不一定起强化作用。
由此可见,是刺激对反应的结果,而不是刺激本身的性质决定某种刺激是否为一种强化物。
1.2强化的类型:斯金纳区分了两种强化类型:正强化(positive reinforcement,又译积极强化)和负强化(negative reinforcement,又译消极强化)。
当在环境中增加某种刺激,有机体反应概率增加,这种刺激就是正强化物。
比如,白鼠按开关时给食物,食物就是正强化。
当某种刺激在有机体环境中消失时,反应概率增加,这种刺激就是负强化物。
也就是说,负强化物是厌恶刺激,是有机体力图避开的那种刺激。
比如,当处于电击状态下的白鼠按开关时停止电击,停止电击就是负强化物。
1.3强化的作用:塑造行为。
1.4强化安排:1.4.1强化的方式:斯金纳认为,在行为实验分析中,最容易控制的、最有效的变量是给予强化的方式。
在精确控制的实验情景中,实验者可以精确地决定使用什么类型的强化,怎样给予强化和何时给予强化。
强化的方式多种多样,包括连续强化和间隔强化、固定比例强化和变化比例强化、固定时间强化和变化时间强化等。
具体见表2:表2表2是我修改施良方的《学习论》中的一个表格得到的。
其中,连续强化、间歇强化这两种强化方式应该比较好理解,对于其内涵学者们也基本没什么异议。
但是,对于比例强化和间隔强化,学者们的表述就有不一致的地方,对于其内涵也有不同的解释。
修改后的表2是我比较认同的理解。
在彭聃龄主编的《普通心理学(修订版)》中,将间隔强化与连续强化相对应,放在第一个层次。
——这与施良方在《学习论》中的理解只是语言表达上的差异,不存在本质的不同。
然后,《普心》又将间隔强化细分为比率式和时间式两种方式。
在这里,就不仅仅是表达上的差异,同时隐含着对两种方式的内涵的理解上的差异。
先说比率式与比例强化。
其中,比率式认为,比例是强化与“反应次数”之间呈一定比例(包括可变的比例与固定的比例);而《学习论》中的比例强化是强化与“正确反应次数”之间呈一定比例。
既然,强化的作用是塑造行为,那么,如果将强化以“反应次数”为度,效果肯定没有以“正确反应次数”为度来得好,因为前者是只要出现反应,无论对错,只要靠次数就给强化,就可能出现反应者随便做出反应的结果。
因此,我更赞同将比例强化理解为强化与正确反应次数之间呈比例。
其次要说的是时间式与《学习论》中的间隔强化的不同。
时间式显然是强化与“时间”之间的间隔。
而《学习论》中的间隔强化是强化与一定时间内的正确反应的间隔(例如,每隔5分钟正确反应给予一次强化)。
显然,后者比较复杂,因为它将强化与两个条件相联系,一是时间(5分钟),一是反应的性质(正确反应),乍看似乎比只考虑时间因素更能符合强化的塑造行为的作用。
但是,细想之后发现这种理解有个致命的缺陷——可操作性不强!这种理解是说在5分钟之内的反应都是正确的才给强化吗?还是说5分钟之内只要出现过正确反应就给强化?如果一直没出现正确反应,但是5分钟时间已到(这时时间条件满足,但反应性质条件没满足),这种情况给不给强化?……一系列的问题都说明这种理解的可操作性不强。
而,斯金纳的强化理论,甚至是整个操作学习理论都是来自于他的实验的,因此,他所采用的像强化这种概念应该会更多地考虑可操作性。
因此,我更赞同将间隔强化理解为只与时间之间的间隔。
这也是我修改《学习论》中的表的原因。
1.4.2不同强化安排的效果:强化的方式可以有种种不同的结合和顺序,不同的强化安排对学习测试也会产生不同的影响。
1.4.2.1对习得速度的影响:一般说来,如果最初学习时给予连续强化,学习速度就会比较快些。
如果最初学习时使用间歇强化,学习就会困难些,速度也就慢一些。
1.4.2.2对反应速度的影响:首先,一般说来,比例强化比间隔强化的反应速度要快些。
其次在两种固定强化安排中(固定比例强化和固定间隔强化),在每次强化后,反应速度立即变慢,其反应速度是从这一次强化后到下一次强化前有规则地逐渐加快。
由于这种图解很像海里的扇贝,因此把它称为“扇贝型”(scalloping)效应。
最后,在两次强化之间反应速度的这些变式,只表现在固定强化安排中,在变化强化安排中则没有呈现这种现象。
1.4.2.3对消退速度的影响:首先,连续强化安排比间歇强化安排习得的速度要快些,但在不给强化后,导致消退的速度也会更快些。
其次,固定强化安排比变化强化安排引起的习得速度要快些,但在没有强化时,它引起的消退速度也会更快些。
最后,在比例强化(不论是变化比例还是固定比例)安排中,强化比例高的反应速度要比比例低的快一些,但在不给强化后,消退速度相应地也要快一些。
综上,最佳的训练组合也许是,最初时使用连续强化,然后是固定间隔强化,最后是变化比例强化。
此外,随着训练期的推移,比例也可以改变。
总体说来,减少强化的比例,会使消退速度放慢。
2、消退:2.1消退的含义:“有机体作出以前曾被强化过的反应,如果在这一反应之后不再有强化物相伴,那么这一反应在今后发生的概率便会降低,称为消退。
”⑤2.2消退的作用:在强化中,无论是正强化的奖赏还是负强化的回避,其作用都在于增加某种反应在将来发生的概率,以达到塑造行为的目的,而消退则不然。
消退是一种无强化的过程,其作用在于,当有机体自发地做出某种反应以后,不对其施与任何强化,从而降低该反应在将来发生的概率,以达到消除某种行为的目的。
在消退早期,在不施与任何强化时,行为频率会在短时间内忽然增加,之后频率减少,才是真正的消退。
早期频率的增加很好理解。
比如,白鼠之前按开关就得到食物,后来,消退开始,按开关不给食物了,白鼠就会更用力更频繁地按开关,为的是确认是否是因为自己按得不够大力或是其他什么偶然的原因使食物不出现。
等到它确信再怎么按也不会有食物的时候,它的按开关的行为才开始真正的减少,最后消退。
3、惩罚:3.1惩罚的含义:“当有机体作出某种反应以后,呈现一个厌恶刺激或不愉快刺激,以消除或抑制此类反应的过程,称作惩罚。
”⑥3.2惩罚的作用:惩罚与负强化和消退都有所不同,负强化是要增加行为发生的概率,消退是不施与强化。
但惩罚是通过厌恶刺激的呈现来使行为反应在将来发生的概率降低。
但是,动物实验表明,惩罚对于消除行为来说并不一定十分有效,厌恶刺激停止作用以后,原先建立的反应仍会逐渐恢复。
(这点可以用班杜拉的观察学习理论来解释。
班杜拉认为人们的大部分行为是通过观察学习习得的。
观察学习要经过注意、保持、再现和动机四个阶段,这样,惩罚就只是阻止了动机阶段的发生,而使行为没有表现出来,但是不能阻止前三个阶段的发生,因此,个体还是将不良行为记在脑子里,只是由于惩罚而暂时不做而已,只要惩罚撤销,个体还有可能再做。