在美国,心理学者爱德华·桑代克(E.L.Thorndike)同时进行着与巴甫洛夫类似的实验。不同的是,在巴甫洛夫的实验中,狗并不是通过主动对环境做出某些行为而获得食物——不管它们做什么,食物都会出现在它们面前。操作条件反射则是被试做出某种行为,并对情境产生了影响,并因之带来了强化。桑代克把饿猫放在特制的迷笼中,笼外放着食物,逃出迷笼的猫会得到一片食物。猫急于出笼,会做出各种尝试。如果重复进行上述实验,猫的错误动作会减少,学会了用何种动作才能正确出笼。桑代克因此认为动物的学习是经过多次尝试不断减少错误的过程。后人称这种理论为尝试错误论,简称“试误论”。桑代克认为,他的学习理论不但适用于动物,也适用于人类。这种思路并非始于桑代克的发明。早在19世纪,著名哲学家边沁已经宣称,人类行为的原则就是趋利避害。人类做出一切行为的原因不过是追逐奖励,逃避责罚。这些奖励可能是物质的,如钱财,也可能是心理的,如重要感和命运的可控感,还可能是社会的,如社会地位的提升和认同感。在日常生活中,父母、雇主也会利用奖励或惩罚来塑造他人的行为。操作学习心理学家做的工作则是,如何合理地利用奖惩手段。操作条件反射研究的是“某种类型的后果对行为出现频率的作用效果。”[19]
桑代克提出:学习的实质是刺激与反应之间的联结。并提出了三条基本定律和五项原则。三条基本定律包括准备律、练习律和效果律。准备律是指联结的加强或减弱取决于学习者的心理准备状态。在有准备的状态下,得到传导则会引起满意,得不到传导时就会引起烦恼。在没有准备的状态下,勉强进行传导也会引起烦恼。练习律是指刺激与反应之间的联结如果得到重复或练习就会加强,不重复不练习则会减弱。练习律又可分为反应律和失用律。前者是对于一个已形成的可改变的联结来说,若加以应用,这个联结就会得到加强;后者是对于已经形成的可变的联结来说,如不加以应用,就会使这个联结减弱。效果律是指刺激和反应之间的联结可因导致满意的结果而加强,也可因导致烦恼的结果而减弱。尤其值得注意的是,桑代克在实验中发现赏和罚的效果并不相等,赏比罚更有效。所以后来桑代克不再强调烦恼,而只是有条件地承认惩罚的间接作用。学习原则包括:多重反应原则、心向制约原则、选择反应原则、类化原则和联想交替原则。多重反应原则是指人和动物对同一情境(刺激)发生的反应可能是多种多样的。在如果某种反应不能适应外在的情境的情况下,学习者会产生其他反应。这使得学习有成功的可能。心向制约原则是指学习者的态度和倾向会影响学习的效果。学习态度是否积极是学习取得成功的重要心理条件。如果具有消极的态度和倾向,学习就会受到妨碍。选择反应原则是指在学习过程中,本来某些反应是由整个的情境所引起的,然而在一定的条件下,情境中的个别要素也会引起这些反应。类化原则是指学习者——无论被试是人或动物——对各种类似的情境有发生同一反应的倾向,他们对于陌生的情境会按照先前对同类的情境所发生的反应来作出类似的反应。联想交替原则发生在代替性学习的时候,如果甲、乙两个刺激经常同时出现,并且都受到了学习者的注意,那么用甲刺激也可以引起本来只能由乙刺激所引起的那种反应。
斯金纳则认为,巴甫洛夫经典条件反射是应答性反应,是暂时性的神经联系,动物往往是被动接受刺激,由强化刺激引起非条件反应。人类的绝大多数有意义的行为都是操作性的,具有无条件刺激物不明确、通过自身的主动操作来达到目的、大多是随意的或有目的的行为、不是强化刺激引起非条件反应而是非条件反应引发了强化刺激的特点。即人类会以自己的某种操作行为主动地作用于环境以达到对环境的有效适应。所以应该研究行为和结果之间的联系,研究强化物的作用机制、呈现方式,观察有机体反应概率的变化,来探讨人类行为学习的条件和规律。斯金纳发明了一种被广泛称作斯金纳箱的学习装置来进行研究。在箱子内,被试的动物如鸽子用嘴啄键盘或者白鼠推动杠杆即可获取食物。被试的动物经过几次尝试,就逐渐学会如何取得食物。这种用嘴啄或者用爪子推是动物对外部环境所做的行为,通过对其操作强化而最终形成的某种条件反射。所以,操作性条件反射是指,行为者为了获取行为的结果,学习作出或者回避某种反应的过程。这一过程中,在情境刺激与反应之间形成了巩固的联系。因此,斯金纳认为虽然人类学习行为的性质比动物复杂得多,但也要通过操作性条件反射来完成。他把学习理解为行为反应概率的变化。继而提出一种分析各种环境刺激的功能的方法,以决定和预测有机体的行为如何习得、如何改变、如何消退。关于斯金纳的操作条件反射及操作学习理论,美国著名人格心理学家Jerry M.Burger论述道:操作条件反射关注的是某种类型的后果对行为出现频率的作用效果。有些后果会使先前某行为出现频率增加,这些后果叫作强化;有些后果会使某行为出现频率减少,这些后果叫作惩罚。一种后果是强化还是惩罚要取决于人与情境。如果你饿了,那么给你草莓冰淇淋吃就是强化。但是如果你不喜欢草莓冰淇淋,或者你觉得特别冷,草莓冰淇淋就是惩罚。
心理学者发现了两种增加行为频率的基本强化策略。正强化使行为频率增加,是因为这一行为后面跟随着奖励。饥饿的老鼠在每次踩到杠杆之后都会得到一粒食物,于是它就不断地踩杠杆。学生在考试前努力学习,结果得了一个高分,他们就会在随后的考试前都努力学习。我们还可以用负强化来增加行为的频率,这时要在行为出现时把不愉快的刺激撤销或减少。老鼠可以在迅速拉动线绳时避免电击,于是老鼠学会了拉动线绳。操作条件反射的另一面就是能减少我们不希望出现的行为。跟应用操作条件反射来增加合乎期望的行为一样,操作条件反射也为减少不合乎希望的行为提供了两种方法。最有效的方法就是停止强化,让这一行为慢慢消失。这一方法虽然很简单,但人们还是会在无意中又强化了问题行为。例如,教师可能会当着全班同学的面批评在课堂上调皮捣蛋的学生,但教师可能没想到,这个孩子得到了其他同学以嘲笑的方式而表现出来的关注,于是,教室情境使得本意上的惩罚变成了强化。明智的教师会把捣乱的孩子带到走廊里,告诫他遵守纪律,这样就撤销了强化。
我们也可以用惩罚来减少不合乎希望的行为。从理论上讲,如果行为之后跟随着不利刺激(比如说电击),或跟随着积极刺激的撤除(比如说把玩具拿走),行为发生率就会减少。惩罚的效果在实验室里对动物的实验中能够显现出来,心理治疗师在一些特殊的个案中运用这一方法也取得了一些成功。但研究表明,由于以下一些原因,惩罚的有效性是有限的:第一,惩罚不能教给人恰当的行为,它只是减少了不合乎希望的行为的发生率。惩罚爱打人的孩子,还不如教给他用别的方法应对使他受挫的情境。第二,为了使惩罚有效,惩罚必须是即时性、恒常性的。当问题行为出现时,父母应该尽可能快地惩罚孩子,而不要“等你爸爸回来”。惩罚还必须要有相当的力度,并且在每一次不合乎希望的行为出现时都给予惩罚。孩子说脏话时,父母有时容忍,有时惩罚,这不能改变孩子说脏话的习惯。第三,惩罚会带来负作用。父母或心理治疗师的本意是消退某一行为,但孩子可能会把其他行为与惩罚联系起来。例如,一个孩子因为把玩具扔向窗户而受到惩罚,结果这个孩子可能再也不玩玩具了。另外,根据经典条件反射原理,孩子可能会把伴随着惩罚的厌恶感与实施惩罚的人联系起来。挨父母打的孩子会把父母与挨打的痛苦联系起来。另一个负作用是不合乎希望的行为可以通过榜样习得。例如,那些挨父母打的孩子,长大变得身强力壮之后会想,他们也可以打别人。惩罚还会带来消极情绪,如恐惧和焦虑,强烈的消极情绪会干扰孩子学习恰当的反应。这几个方面的负作用使行为主义治疗师不到万不得已不使用惩罚手段。治疗师顶多会暂时使用惩罚来抑制不合乎希望行为的发生,随后再强化那些合乎期望的行为,而且只是在这两种行为不相容的情况下才会这么做。(www.xing528.com)
斯金纳将奖励定义为强化(reinforcement),并认为无论是正强化(positive reinforcement)还是负强化(negative reinforcement)都可以增加行为发生的可能。并且认为负强化与惩罚(punishment)和消退(extinction)是有区别的。惩罚是机体受到有害或痛苦的刺激以作为行为的结果。消退是指行为发生后,既没有强化也没有惩罚。他认为实施惩罚并非是消除行为的良策,因为惩罚只是治标不治本,只能暂时地减少行为的发生几率。只要身处一定的情境,行为者极有可能重蹈覆辙。相对而言,消退则是消除行为的一个更有效的方法,因为一旦有机体意识到行为本身并不能带来任何强化,这种反应方式将会从应对情境的策略中被消除。因此斯金纳坚信探索导致犯罪的人格特质或者个人倾向是徒劳无功的。因为,人始终是被他生存的环境所塑造的。尽管斯金纳并没有全盘否定遗传因素在行为形成中的作用,但是他宣称在行为的形成过程中,遗传因素的影响很小,真正发挥主导作用的是操作性条件反射。[20]
考虑到强化有正强化和负强化之分,就意味着行为人对于某种刺激的反应是个体化的,无法脱离个体的认知因素。譬如盗窃罪的产生原因,既可能是由于渴望物质奖励,也可能是为了提升自己在同辈群体中的地位,甚至可能仅仅是为了寻求刺激。强化机制的本身非常复杂,而且对行为的强化并不总是能够察觉。所以,许多犯罪行为是在正强化或负强化物的驱使下发生的,这一观点本身是正确的。但是这一观点要求我们必须正确看待犯罪,以及详尽地辨别区分正强化或负强化,阻止操作条件反射的发生或者降低其作用。对此,斯金纳和其拥趸提出的观点是,如果想让犯罪行为销声匿迹,首先应树立科学的人性观,然后建立在此基础上的行为工程,最后,通过利用行为工程的基本原理来改变社会。首先要对规章制度有一致的看法(即界定哪些行为是反社会或者犯罪行为),然后建构一个社会,让社会成员很早便知道正强化只会出现在他们遵纪守法之时,而决不会在他们违反规则制度时出现。但是这又何其难也!尤其是,既然根据斯金纳的观点人生来是没有好坏之分的,文化、社会和环境塑造了人的行为。由于社会的选择,行为被标定为“好”“坏”或者“一般”。在某一文化中代表着好的行为,在另一种文化中可能意味着不好。那么,所谓“科学的人性观”,其伦理价值将依附于什么呢?很有可能犯罪的界定和对策沦为经济利益的功利性选择。而这种选择必将是临时的、差异性的,这又如何能够保证长期的行为塑造?
根据Nietzel的考证,C.R.Jeffrey(1965)是第一个提倡犯罪行为的习得是遵从斯金纳学派的操作性条件反射原理的犯罪学家。在此之后,Burgess和Akers在赞同Jeffrey观点的基础上进一步作出了犯罪行为的习得和保持均遵从操作性条件反射原理的论断。但是,正如Nietzel所指出的,几乎所有支撑操作性条件反射作用这一理论的证据都来自于对动物的实验,真正通过对人的实验而获取的证据屈指可数,而且,就算是直接对人进行实验,所获取的数据也能从其他角度进行诠释。不过,无论是Jeffrey、Burgess还是Akers,并没有将全部心思专注于斯金纳的理论,相反,他们将社会学家Edwin Sutherland的社会学习原则与操作性条件反射,特别是和其中的强化观相结合,运用到对犯罪行为的解释中。[21]这些理论将注意力转向个体的心理状态和大脑调节过程,更加专注于研究自我强化、预期强化、替代性强化在学习和人格形成中所起的作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。