2024年6月17日下午,受北大-清华生命科学联合中心李毓龙研究员邀请,加州大学旧金山分校(UCSF)教授Joshua Berke在生命科学学院邓祐才报告厅带来一场题为“Time, Space and Dopamine”的精彩报告。
Berke教授的研究重点是多巴胺系统在学习和奖赏中的作用。在报告中,他从两个方面展开了深入探讨: 1. 在奖赏学习过程中,不同脑区的多巴胺释放模式。实验发现, 中脑腹侧被盖区(VTA)的多巴胺信号与动机行为相关,而伏隔核核心区(NAc core)多巴胺细胞则与奖赏价值更相关。这进一步揭示了多巴胺细胞如何编码"奖赏预测误差"。2.通过构建更复杂的迷宫探索任务,Berke教授研究了大鼠在空间探索过程中,多巴胺如何参与与空间位置相关的奖赏价值的更新。总体上,Berke教授的报告对多巴胺系统在学习和奖赏中的作用做了深入而全面的阐述,为相关领域的研究提供了新的思路。
Berke教授首先从多巴胺的功能开始介绍。多巴胺作为重要的单胺类神经递质,在奖赏学习中发挥着关键作用。但关于多巴胺具体编码何种信息,学界一直存在争议。
早在1997年,Schultz等人提出了"奖赏预测误差假说(reward prediction error hypothesis)"。该假说认为,多巴胺细胞编码"奖赏预测误差"这一误差信号,可以指导学习。基于此,目前认为大脑中可能存在一个"强化学习框架",通过实时更新做出的决策与获得的奖赏之间的关系,计算出相应的"奖赏预测误差",进而指导学习。
然而,这种理论认为多巴胺的信号是以一个整体发挥作用。但也有研究发现,多巴胺的释放存在空间异质性。这是否意味着,除了编码"奖赏预测误差"外,多巴胺本身也编码其他信息,如奖赏的"价值"?这是一个值得进一步探讨的问题。
强化学习框架
为了回答这个问题,研究者通过给大鼠随机性的奖励,同时在多巴胺能投射密集的纹状体的3个亚区(dorsolateral striatum or DLS、dorsomedial straitum or DMS、以及ventral striatum or VM)记录多巴胺荧光探针的信号。结果发现:
1. DLS的本底多巴胺释放更加活跃。
2. 在随机奖赏呈递时,这三个脑区的多巴胺都有上升,但其中VS的多巴胺释放时间似乎更长。
这种脑区特异性的多巴胺释放模式,表明不同脑区的多巴胺可能编码不完全相同的信息。这进一步支持了除了"奖赏预测误差"外,多巴胺还可能参与编码其他信息(如奖赏价值)的假说。
不同脑区多巴胺释放模式具有时空特异性
为了进一步区分多巴胺所编码的信息究竟是奖赏的"价值"还是"奖赏预测误差",研究者改变了奖励模式,通过训练大鼠将不同声音与奖励强弱偶联,即经典的巴甫洛夫式学习,同时监测纹状体不同亚区的多巴胺信号变化。
研究结果发现:
1. 训练后的大鼠,不同脑区多巴胺对于声音以及奖励的释放模式显著不同。
2. DMS的多巴胺释放模式与"奖赏预测误差"理论相符合。
3. 而DLS的多巴胺释放强度似乎与奖励本身的价值更加相关,对于能够预测奖励的声音仅表现出很弱的相关,不完全符合"奖赏预测误差"理论。
4. VS脑区的多巴胺信号持续时间相比DLS和DMS更长,暗示其可能在更长的时间尺度下发挥功能。
不同脑区多巴胺信号与奖赏预测误差之间的关系
为了进一步探究不同脑区多巴胺可能在不同时间尺度上编码"奖赏预测误差",研究者引入了时间变量,并建立了两种模型来解释实验结果:
1. Complete serial compound model:
该模型假设奖赏预测误差信息是通过一系列时间延迟的神经信号编码的。
模拟结果显示,DLS多巴胺的主要在短时间尺度上的预测误差信号相关,DMS的多巴胺信号与经典的"奖赏预测误差"最为符合。而VS多巴胺则与较长时间尺度(分钟级别)上的预测误差信号相关。
2. Recurrent neural network model:
该模型将奖赏预测误差编码分散在不同时间尺度的神经元网络中。
模拟结果也进一步支持了不同脑区多巴胺可能编码不同时间尺度上的预测误差信号的假说。
上述两种模型的研究结果表明,不同脑区多巴胺通过编码不同时间尺度上的奖赏预测误差,在学习和决策过程中发挥着不同的作用。
不同脑区多巴胺信号在不同时间尺度上编码"奖赏预测误差"
在第二部分研究中,研究者将奖励获取的模式改为更加复杂的空间探索任务: 大鼠需要在迷宫中探索,记住食物出现的地点。研究者会尝试改变迷宫的路径,尽管食物出现的地点不变。此时大鼠需要根据已经形成的"认知地图"更改路径来获取奖励。在改变迷宫路径后,大鼠会快速适应并及时修改策略。这一更复杂的实验设计,可以进一步考察大鼠在空间导航和记忆任务中,多巴胺信号的作用机制。
与之前单纯的奖赏预测误差任务不同,这种涉及空间探索和认知地图更新的任务,可能需要动物调动更多的认知资源,包括工作记忆、灵活性等。在这种情况下,不同脑区的多巴胺信号可能会呈现出更加复杂的动态变化,反映其在支持这些复杂认知功能中的具体作用。
大鼠能够在空间探索任务适应和改变策略
在大鼠进行空间探索和认知地图更新的实验过程中,研究者发现:
1. 当大鼠在探索过程中发现更加短捷的新路径时,多巴胺会出现迅速的释放。
2. 而当之前已经习得的熟悉路径被阻拦时,多巴胺并不会出现明显的释放。
这一发现可能表明,多巴胺信号不仅编码了奖赏预测误差,还能反映出大鼠对于新"机会"的感知和评估。
大鼠探索新地图时的多巴胺释放
同时研究者也观察到,在整个迷宫探索过程中,随着大鼠距离终点奖赏越来越近,其多巴胺释放量也会逐渐上升,并且最终的释放量与奖赏的价值正相关。
最后,研究者探究了多巴胺如何作为“teaching signal”负责参与空间学习。通过对大鼠海马位置细胞的记录,研究者可以根据它们的放电情况来预测大鼠在"认知地图"中的当前位置。当获得奖励后,大鼠的海马会出现同步化的神经元放电,即“sharp wave-ripple (SWR)”, 有趣的是,SWR通常出现在多巴胺释放之后,这提示多巴胺可能通过某种机制诱发SWR,从而促进动物对路径和奖赏之间关系的更新和巩固。这一发现进一步支持了多巴胺在支持复杂认知功能中的关键作用。它不仅编码奖赏预测和环境机会,还可能作为一种"教学信号"参与动物对空间认知地图的动态构建和更新。
研究者在本次报告中详细研究了多巴胺编码的信息,在不同脑区,多巴胺编码了不同时间尺度上的"奖赏预测误差"信息。这可能为动物提供了对当前环境状况的动态评估,帮助其做出及时的反应和决策。在空间探索的任务中,研究者发现多巴胺可能直接或间接地诱发海马神经元的同步化放电(sharp wave-ripples,SWRs)。这种多巴胺-SWR机制可能通过一种类似于"心理模拟"的方式,整合和更新动物对环境的认知地图,强化有利的路径和奖赏之间的联系。