第七十九夜 学习 二(第2/3页)
数量,这时奖励对于个体而言已经不再有什么区别。
例如食物训练时,每次只给一点就是因为当动物吃饱后,食物对他们而言已经不再有效益。
最后,间隔强化最大的特点就是不确定性,对于个体而言,他不确定哪次行为或什么时间会有奖励,这种不确定性之所以能给个体以更大的强化是因为他符合我们(包括动物)进化机制。
动物外出捕食并不是每次都能成功,他们不能确定收益的时间和数量,为了生存和繁殖,每次外出行为实质上都有一种获得食物和资源的预期,这种激励机制通过上百万年进化已经能十分有效的作用于几乎所有动物,相对于每次都能获得食物,这与我们自身进化和环境适应相冲突。
变动比率(时间)安排。
上面提到间隔强化中间隔有多种形式,有的以次数为依据(比率安排),有的以时间为依据(间隔安排),和前面提到的强化权变关系一样,强化具有波的性质。
这里以固定时间或固定次数为间隔的是频率不变的波(如果每次强化数量也一样则波幅也不变)。
例如工厂按件计费和按时计费就是这种情况,但环境中还存在一种不可预知、不可确定的间隔强化(个体掌控很少的情况,大多数生存环境都是这样),这种强化因为符合进化机制(动物捕食,存在超额收益的可能),所以对个体的作用和效果远大于固定强化。
例如赌博、彩票、推销、保险、抽奖等。
实验对饥饿的鸽子啄击铁板,但不确定次数出食,鸽子在一小时内不停的啄击12000多次,有的2次就出食了,有的198次才出食,平均一小时内需110次才出一次。
实验再对同样饥饿的鸽子,这次设定固定次数出食,110次出一次,由于不再有少于110次出食的情况(例如2次就出食),鸽子啄击的频率由开始很快到后面明显变慢,到后面变成基本固定的频率。
鸽子知道必须啄击同样的次数必定出食(在两次间隔中间,鸽子基本已经丧失了啄击的动力,但在次数快够出食时,啄击明显加快),这种确定性消除了超额收益的可能(短时间少次数获得收益),让个体获得收益的积极性完全丧失。
所以,在可以产生超额收益的机制中,我们最好不要采用固定间隔强化(例如,考试前突击学习,假期末突击写作业,屎憋屁门了才去找纸等都是因为固定间隔是我们已经确定的,我们在确定发生之前才会行动,不只是人类,所有动物者是这样,确定性最大的坏处就是将所有可能结果都确定了,个体无论怎样发挥怎么积极,最终的结果都是一样,这限制了能力更高的个体或是积极性更高的个体的行为预期)。
工厂实施的固定回报收益是因为生产环境完全可控,其部件流水速度是按照绝大多数个体的平均能力确定,这种一刀切的模式基本就扼杀了更高效率、更简流程、更好创意的可能。
例如,事业单位每月按时发工资,无论你在这个单位贡献多少,无论这个月和下个月你创造了多少价值,每个月的收益都是不变的,这实质上就是效率最低下的强化模式。
那么问题来了,为什么效率不高却还要采用呢?
因为这种模式保证最大同一性及所有个体的收益性,牺牲强者维持弱者的机制。
例如,如
(本章未完,请翻页)