设置

关灯

第七十九夜 学习 二(第1/3页)

    强化的权变关系。

    同自然界中波是一样,也就是说强化的频率(间隔多长时间给予强化),强化的强度(也就是振幅,一次给多少,波谷相当于给予负强化,波峰相当于正强化,振幅可以是个常数,也可以是变量,就好比波一样,频率和振幅都是可变的,但不会改变波的本质)。

    波的横坐标可以看作是学习积累量,纵坐标看做学习加速度(积极性)。

    连续强化和间接强化。

    连续强化多用于学习新事物,每做正确一个行为,即使没有达到目的,都需要及时奖励,这是保证学习积极性和有效性的最佳策略。

    间接强化多用于维持已学得行为,这时行为已经不再是学习(不再是新鲜事物和未知事物)而是重复性的行为,但如果一直不能得到强化(奖励,有益于生存和繁殖的所有行为或资源),个体无法积极响应和维持这种无意义的行为。

    间隔多少次或多长时间进行强化,和行为的难度(花费的时间和代价)、个体的认知(阀值高低,多少次没有回报才算不值得)、环境压力(外因造成的不利己)等综合决定。

    有意思的是,为什么间接强化对于已经习得的行为或认知要比连续强化更有效呢?

    连续强化对于个体而言获得更多的收益是没错的,但我们现在研究的是教授和训练,主体不只是学习个体还有教授的个体,个体最佳的学习路径并不是以自身实践在环境中学习。

    这样做一是效率不高,他要走很多弯路才能学习到正确的行为甚至永远都学习不到,二是风险大,例如哪些食物是有毒的,哪些动物最好离远点,这些学习往往是以生命为代价的,三是不具有种族累积性,个体的一生所学习到的知识和技能,如果不能教授给下一代,那么这个种族必将灭亡,因为这和基因进化性质一样,没有遗传,哪有变异。

    所以传授、教授是个体学习的最佳路径,所有哺乳动物都具备这样的传授行为,这时以上的问题就能很好的解释了:

    一是从传授者角度看,资源是有限的和必须要付出相应的代价获得,这是传授最基础的认知,因为个体学习的根本目的就是能获得更多的资源(或以更少的代价,更有效率的行为)来更好的生存和繁殖。

    对于已经学会的行为,相比正在学习的行为已经习得行为作用个体的时间很长,有的可能是一生,而学习过程(学习行为)却很短暂,只要个体掌握了学习就算结束。

    对于短期的学习行为因为要花费学习者更多的精力和时间(学习过程不产生效益),传授者如果不给予高频率大数量的奖励,个体很可能因为这个过程对自己没有收益而放弃。

    而当学习完成,个体已经没有理由再从传授者这里获得收益,他可以用学习到的行为获得收益,除非这种行为有利于传授者,而这种已经学会的行为与那些正在学习的行为相比不再重要,传授者必须以最小的付出维持个体的习得行为。

    从学习者(个体)来看,通过从教授者那里获得收益的频率和数量,让他们更关注那些新事物新学习,让个体明白什么才是相对重要的,这也是为什么差别化实质上是一种行为暗示。

    再从资源边际效应上看,如果同一种奖励过多,其每一次产生的激励作用递减,总有这样的一个临界
    (本章未完,请翻页)