经典的强化学习模式阐述了,在同时满足下列条件时,学习者能够学会某种技能:
知道获得奖励的策略,
自身也能够感知到什么操作就能够获得奖励物。
但是,一项开创性研究发现,1)在没有任何关于如何获得奖励的策略提示,同时2)自身也不能够感知到什么操作就能够获得奖励物的情况下,小鼠竟然学会了操纵自身大脑皮层的随机自发性多巴胺冲动来获得奖励。惊艳!
多巴胺是一种在大脑内无处不在的的神经递质,负责在大脑神经元之间传递信号,它涉及意识、认知和行为的多个方面功能,比如执行、注意力、学习、记忆、奖励和快乐的感觉,以及自主运动。
多巴胺主要产于多巴胺能神经元。多巴胺能神经元主要分布于中脑的腹侧被盖区(VTA)和黑质致密部(SNc)、部分存在于下丘脑弓状核,经4条主要通路投射于全脑:中脑-边缘通路、中脑-皮层通路、黑质-纹状体通路、结节-漏斗通路。
这项实验与经典的操作条件(强化)学习完全不同,小鼠在整个实验中并不知道如何操作才能获得奖励物。因为,在此次实验中,小鼠并没有可以用于操作的东西,比如踏杆、或者舔舐。它们必须通过有意识地控制自发性皮层多巴胺的水平高于基准线才能获得奖励物;并且皮层中多巴胺水平的高低是通过多巴胺光学传感器-[DA]ex的测试获得的,小鼠自身也不能感知到获得奖励物的策略。要获得奖励物的难度要远远大于经典的“操作性行为”,但是为了获得奖励,老鼠学会了可靠地调节多巴胺脉冲。
这项研究令我惊艳的原因是,小鼠1)不知道获得奖励物的策略——做了什么就能够得到奖励物,2)一旦获得了蔗糖水滴的奖励,它们也不知道为什么?因为给与蔗糖水滴的条件不是基于小鼠自身能够感知到的操作,而是基于对皮层多巴胺水平的测量。即使在这种情况下,小鼠还是掌握了获得奖励物的能力。为什么?留言给我,给你答案。
我想说的是,这就是神经元世界的神秘魅力!
迄今为止,科学界从外部线索或“决定性”信号的角度对多巴胺进行了广泛的研究。相反,加州大学圣地亚哥分校的研究人员最近开始研究与多巴胺自发冲动有关的较少为人所知的方面。他们的研究结果发表在上个月的《CurrentBiology》杂志上,表明老小鼠可以随心所欲地操纵这些随机的多巴胺脉冲。
加州大学圣地亚哥分校的研究生ConradFoo领导的研究发现,小鼠的新皮层充斥着不可预测的多巴胺冲动,这种冲动大约每分钟发生一次,而不是仅在呈现令人愉悦或基于奖励的期望时才会发生。[注:大脑神经元的自发性活动是其内在的自然属性]
与加州大学圣地亚哥分校(物理系和神经生物学部)和纽约西奈山伊坎医学院的同事们一起,Foo研究了小鼠是否真的意识到这些冲动——在实验室通过分子和光学成像技术进行记录——证明了实际上是的。
研究人员设计了一个反馈方案。首先测量并获得了小鼠的大脑皮层多巴胺基准线,然后使用基于细胞的突触外多巴胺光学传感器-[DA]ex,实时监测在跑步机上的小鼠皮层的多巴胺水平,如果显示出它们能够控制和升高自发性的多巴胺信号,就会得到奖励-蔗糖水滴。本实验的关键在于,小鼠并不知道获得蔗糖水滴的奖励是基于它们的皮层多巴胺水平,也没有经过任何此类实验前的强化训练。实验显示,小鼠不仅意识到这些多巴胺脉冲,而且结果证实,它们学会了预测并对其中的一部分采取行动。
研究人员在论文中指出,“至关重要的是,小鼠学会了在获得奖励之前可靠地引发[DA]ex(多巴胺)冲动。当奖励被移除时,这些效果就会逆转。我们认为,自发性皮层多巴胺冲动可能是在行为规划中一个显著的认知事件。”
“我们进一步推测,动物的自发性多巴胺冲动可能激发它在缺乏已知的奖赏预测刺激的情况下搜索和觅食。在这种情况下,多巴胺作为一种虚假的(尽管是随机的)奖励预测误差,通过多巴胺作为对未来奖励的预期信号的作用来刺激搜索。成功的觅食可以放大这种激励过程。”
研究人员表示,这项研究为多巴胺和大脑动力学研究开辟了一个新维度。他们现在打算扩展这项研究,以探索不可预测的多巴胺事件是否以及如何驱动觅食,觅食是寻找食物、寻找配偶的一个基本方面,也是移居新家园的一种社会行为。
美国国家健康研究院的BRAIN计划(资助DA050159、DC009597、MH111499、NS107466和NS097265)支持了这项研究。
此次研究给予我们这样一个颠覆性的认知:学习是个体发生的适应,也就是说,生物体行为的变化是由生物体所处的环境引起的;而不是在功能上被定义为由体验引起的行为变化,或在机械上被定义为由体验引起的有机体变化。因为小鼠不知道发生了什么,也不能体验到做了什么而获得了奖励。将此认识推及到孤独症干预领域,欢迎留言讨论。
对于孤独症干预的强化物的启示如下。
根据斯金纳的定义:操作性行为,是有机体自身发出的反应,与任何已知刺激物无关,是指在没有任何能观察到的外部刺激的情境下的有机体行为,它是自发的、自愿的行为,直接来源于动机。
这项实验与经典的操作条件(强化)学习完全不同,小鼠在整个实验中并不知道如何操作才能获得奖励物。因为,在此次实验中,小鼠并没有可以用于操作的东西,比如踏杆、或者舔舐。它们必须通过有意识地控制自发性皮层多巴胺的水平高于基准线才能获得奖励物;并且皮层中多巴胺水平的高低是通过多巴胺光学传感器-[DA]ex的测试获得的,小鼠自身不能感知到获得奖励物的策略。要获得奖励物的难度要远远大于经典的“操作性行为”,但是为了获得奖励,老鼠学会了可靠地调节多巴胺脉冲。
所以,强化学习的前提是动物自发性的动机——来自于自发性皮层多巴胺脉冲。在有机体看不见的情境下,足够激发有机体采取行动去获取的外部刺激物称之为强化物。而那些与行为目的无关的奖励,也不能称其为斯金纳所定义的强化物。
比如,和孩子做一个2人对拍手游戏。由于孩子不愿意,所以先出示一根孩子很喜欢巧克力棒。孩子坐下来后,给一节巧克力棒。做了对拍手游戏后,又给了一节巧克力棒。这样方式的强化物,与斯金纳所定义的强化物是不同的。
「特此声明:本网站中的所有文章均由自闭症(孤独症)专家、医生、康复机构、特教老师、自闭症孩子的家长原创或其他网站转载,如需转载请联系客服或注明出处。如果这些文章有侵犯你的权益,请联系我们删除。」