《Nature》最新研讨大脑中存在分布式强化学习机制

时间:2020-01-17 15:03:49 阅读：8324+ 来源：雷锋网作者：责任编辑。王凤仪0768

（原标题：《Nature》最新研讨：大脑中存在散布式强化学习机制）

作者 | DeepMind

编译 | 雷锋网 AI 科技谈论

雷锋网(大众号：雷锋网)编者按：人工智能与神经科学/脑科学之间存在剪不断理还乱的联系。从人工智能诞生之初，其研讨就深受神经科学的影响，包括人工神经网络、强化学习等许多算法；最近较火的类脑核算，更是提出“brain-inspire”的主意。可是，咱们常听，人工智能研讨受神经科学/脑科学启示；那么，神经科学/脑科学的研讨能否受人工智能研讨的启示呢？

DeepMind最近宣布在《Nature》上的文章正是这样的的模范，在散布式强化学习的启示下，他们研讨了小鼠多巴胺细胞的生理机制，发现大脑中相同在运用「散布式强化学习」。这样的研讨，一方面促进了神经科学的开展，另一方面也验证了AI研讨走在正确的道路上。学习和动机是由内、外部奖赏所驱动的。咱们的许多日常行为都以猜测或猜测给定的举动是否会带来活泼的（即有利的）成果为辅导。

巴浦洛夫在他最著名的试验中，练习狗在铃声响起后会发作等待食物的反响，这些狗在食物抵达之前听到声响就开端流唾液，这表明它们现已学会了猜测奖赏。在开端的试验中，巴甫洛夫通过丈量它们发作的唾液量来估量它们的期望。不过最近几十年中，科学家们开端破译大脑怎样学习这些期望的内部运作办法。

与神经科学家的研讨一同，核算机科学家们也在人工体系中不断地开发强化学习的算法，这些算法使AI体系不需要外部辅导（而是由奖赏猜测辅导）即可学习杂乱的战略。

DeepMind近期宣布在Nature上的一项新的作业是，受核算机科学最新的研讨（对强化学习算法的严重改善）启示，他们为大脑中奖赏学习的一些曾经无法解说的特征供给了一个深入而精约的解说，并由此拓荒了研讨大脑多巴胺体系的新途径。可谓是人工智能研讨反哺神经科学/脑科学的模范。

猜测链：时间差分学习

强化学习是人工智能与神经科学结合构成的最为「陈旧」且强壮的思维，早在80年代末就现已呈现。其时的核算机科学研讨人员企图规划一种算法，把奖赏和赏罚作为反响信号融入到机器的学习进程，意图是让机器能够主动履行杂乱的行为。奖赏行为能够强化机器的行为，可是要处理一个特定的问题，即有必要了解当时机器的行为怎样带来未来的报答；为了猜测某项行为带来的未来的总报答，一般有必要对未来采纳许多办法。

时间差分算法（TD）的呈现为处理奖赏猜测问题找到额突破口，TD运用一种数学技巧，通过一个分外的简略的学习进程替代对未来的杂乱推理，还能得到相同的成果。简略的说，TD算法并不核算所能得到的未来的总报答，而是只是猜测即时奖赏以及下一进程所能取得的奖赏。然后，当下一刻呈现新信息时，将新的猜测与预期的进行比较。

假如它们不同，则算法会核算出它们之间的差异，并运用此“时间差分”将旧的猜测调整为新的猜测。不断调整，使期望与实践相匹配，从而使整个猜测链逐步变得更精确。大约在20世纪80年代末和90年代初，神经科学家研讨了多巴胺神经元的行为，并发现此神经元的放电和奖赏有某种联系，而且这种联系依赖于感觉输入，而且假如研讨方针（例如动物）在一项使命中变得更有经历，则这种联系也会发作改动。

20世纪90年代中期，有一批科学家一同对神经科学和人工智能都十分通晓。他们注意到：有一些多巴胺神经元的反响意味着奖赏猜测的过错，例如与练习时的预期比较，当动物得到过多或过少的奖赏时，这些多巴胺就会放电宣布信号。这些科学家所以提出了大脑运用的TD算法，即考虑多巴胺的反响，并用于驱动学习。尔后这种多巴胺奖赏猜测差错理论（ reward prediction error theory of dopamine）在数千个试验中得到验证，并成为了神经科学中最成功的定量理论之一。

散布式强化学习

核算机科学家的脚步并未逗留于此，自2013年以来，渐渐的变多的研讨人员开端重视深度强化学习，这种在强化学习顶用深度神经网络来学习表明的算法，能够极为有用的处理杂乱问题。

雷锋网注：图1 ：概率表明未来或许得到的奖赏，如上图所示，赤色表明正向成果，绿色表明负向成果。

散布强化学习是其间的代表，它能让强化学习发挥出愈加优异的作用。在许多状况下（尤其是在实践国际中），特定动作所发作的未来奖赏具有随机性。如上图所示，图中的“小人”并不知道是跨过缺口，仍是掉进去，所以猜测奖赏的概率散布图形呈现了两个凸起：一个代表下跌；一个代表成功跨过。传统的TD算法选用的办法是猜测未来奖赏的均匀值，这明显无法取得奖赏散布的两个峰值（凸起），这时候散布强化学习则能够猜测到一切的或许性。

失望/达观猜测谱

最简略的散布强化学习算法与规范TD亲近想关，这种算法也称为散布式TD。两者的区别是：规范TD算法学习单个猜测或许猜测的期望值；而散布式TD则学习的是一组不同的猜测，这组猜测中的每一个都选用规范TD办法学习。但要害的要素是，每个猜测器都会对其奖赏猜测差错运用不同的转化。

图2：a：“失望的”细胞将扩大负向奖赏或疏忽正向奖赏，达观的细胞将扩大正向奖赏或疏忽负向奖赏；b：奖赏累积散布图；c：奖赏的完好散布图

如上图a所示，当奖赏猜测差错为正时，一些猜测器有挑选地“扩大”或“加码”奖赏猜测差错(RPE)。与奖赏分配的较高部分比较照，这种办法能够让猜测器学习到一个更达观的奖赏猜测。相同如上图所示，其他猜测因子扩大了它们的负奖赏猜测差错，因而学习更失望的猜测。综上所述，包括失望和达观奖赏的猜测器能够制作完好的奖赏散布图。除了简略之外，散布式强化学习的另一个优点是，与深度神经网络结合运用时，它会十分强壮。在曩昔5年中，根据原始的深度强化学习DQN agent的算法取得了很大发展，而且经常在Atari 2600游戏的Atari-57基准测验集上进行评价。

图3：将经典的深度强化学习与散布强化学习进行比照，在Atari-57基准上的规范化得分中位数（Atari-57 human-normalised scores）

图3比较了在相同基准下通过相同条件练习和评价的多个规范RL和散布式RL算法。散布式强化学习agent以蓝色显现，能够精确的看出取得了明显的提高。其间的三种算法（QR-DQN，IQN和FQF）是咱们一直在评论的散布式TD算法的变体。为什么散布强化学习算法如此有用？尽管这依然仍是一个活泼的研讨课题，但其间一点则在于了解奖赏的散布状况会为神经网络供给更强的信号，从而以一种对环境改动或战略改动更具鲁棒性的办法来刻画其表明方法。

多巴胺中的散布式代码

由于散布式时间差分在人工神经网络中的功用如此强壮，一个科学问题随之呈现：散布式时间差分能被运用到大脑中吗？这便是驱动研讨者开端这篇《Nature》论文作业的开端动机。在这篇论文中，DeepMind与哈佛Uchida Lab 协作，剖析了他们对小鼠多巴胺细胞的记载。这些记载记下了小鼠在一项使命中体现出的学习才能，在使命中，它们取得了意料之外的很多的奖赏（如图4的彩图所示）：

图4：在该使命中，小鼠被给予随机确认、容积可变的水奖赏，容积从0.1ul到20ul不等（奖赏巨细由掷骰子决议）：（A）经典TD 模型下模仿的多巴胺细胞对7种不同奖赏巨细的反响；（B）散布式TD 模型下，每一行点对应着一个多巴胺细胞，每一种色彩对应着不同的奖赏巨细，色彩曲线表明数据的样条插值。一个细胞的“回转点”（细胞的奖赏猜测差错、放电率在0值处相交）便是特定细胞将奖赏“调”到的预期奖赏，例如，由于奖赏巨细达到了细胞的期望，所以它的放电率与它的基线率比较不多也不少；（C）实践多巴胺细胞对其间不同奖赏巨细的反响，与散布式TD模型的猜测十分挨近。

插图展现了三个对正向和负向的奖赏猜测差错有不同的相对缩放份额的示例细胞。研讨者评价了多巴胺神经元的活动是与「规范的时间差分」仍是与「散布式时间差分」愈加共同。如上所描绘的，散布式时间差分依赖于一组不同的奖赏猜测。

因而，研讨首要的问题便是，是否能够在神经数据中找到这些实在多样的奖赏猜测。在此前的作业中，研讨者了解到多巴胺细胞会改动它们的放电率，来暗示呈现了猜测差错，也便是说，当动物取得了比它们的预期更多或更少的奖赏，便是发作了猜测差错。

而当细胞取得了与它的猜测刚好持平的奖赏，猜测差错就为0 ，从而其放电率也不会发作任何改动。研讨者为每个多巴胺细胞决议好不会改动它的基线放电率的奖赏巨细，对此研讨者称之为细胞的“回转点”。他们期望能够了解到，细胞与细胞之间的“回转点”是否不同。

在图4c中，作者展现了细胞之间的明显差异，一些细胞猜测的奖赏十分大，而另一些细胞猜测的奖赏却十分小。这些差异超出了预期从记载华夏有的随机变异性，所看到的差异程度。在散布式时间差分中，奖赏猜测中的这些差异源自于正向或负向的奖赏猜测差错的挑选性扩大。扩大正向的奖赏猜测差错，会构成学习的奖赏猜测更达观；而扩大负向的奖赏猜测差错，则会带来失望的奖赏猜测。

所以研讨者接下来丈量了不同多巴胺细胞体现的不同正向和负向猜测的相对扩大程度。在细胞间，研讨者发现了牢靠可是却无法用噪声来解说的多样性。而且最要害的是，研讨者发现，扩大了正向奖赏猜测差错的相同的细胞，也有更高的回转点（图4c，右下角图），也便是说，它们明显将回转点调整到了更高奖赏量的预期。最终，散布式时间差分理论猜测出，细胞之间不同的“回转点”、不同的不对称性应该一同对学到的奖赏散布编码。所以最终一个问题便是，是否能够根据多巴胺细胞的放电率对奖赏散布解码。

图5：多巴胺细胞作为一个集体，对学到的奖赏散布的形状进行编码：能够给予放电率对奖赏散布编码，灰色的暗影区域是使命中遇到的实在的奖赏散布。每条浅蓝色的轨道都显现了履行解码进程的示例。深蓝色表明的是浅蓝色轨道均匀超出灰色区域的部分。

如图5所示，研讨者发现仅运用多巴胺细胞的放电率，彻底有或许重构一个奖赏散布（蓝色轨道），这与小鼠参加使命中的实践奖赏散布（灰色区域）十分挨近。这一重构依赖于将多巴胺细胞的放电率解译为散布时间差分模型散布的奖赏猜测差错并进行推理以确认模型现已了解的散布。

总结

总结来说，研讨者发现大脑中的每个多巴胺神经元都被调到了不同的活泼或消沉程度。要是它们是一个唱诗班，它们唱的并不是一个音符，而是在唱和声，它们都像低声或女高音歌手相同，有着各自始终如一的声带。在人工强化学习体系中，这种多样的调整，发明了愈加丰厚的练习信号，极大地加快了神经网络中的学习速度，研讨者揣度大脑也会出于这种考量而去选用这种多样的调整办法。大脑中现存的散布式强化学习，对AI 和神经科学都有着十分有意思的影响。

首要，这一发现验证了散布式强化学习，让咱们愈加深信：AI 研讨正走在正确的轨道上，由于散布式强化学习算法现已运用于咱们咱们都以为最智能的实体：大脑。其次，它为神经科学提出了新问题，并为了解心理健康和动机供给了新的视角。

假如一个人的大脑有挑选性地“倾听”达观或失望的多巴胺神经元，会发作什么？这会引起激动或是郁闷的心情？大脑的优势在于其强壮的表明才能——所以，散布式学习到底是怎样构成的这种强壮的表明才能的呢？当动物学习了奖赏散布，又是怎样在其下流运用这种表明？多巴胺细胞之间的各种正向表明，与大脑中已知的其他多样性方法又有何联系呢？这些都有待进一步去探究。咱们咱们都期望能有更多的研讨人员去提出并答复相似这样的问题，从而来推进神经科学的前进，并反过来让 AI 研讨获益，构成一个良性的闭环！

viahttps://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI

参阅：https:///articles/s41586-019-1924-6

为您推荐

SHURE推出MOVEMIC：尺寸超小、音质更佳的双通道直连手机无线领

使用Shure“MoveMic One”和“MoveMic Two”领夹式麦克风，以及可扩展设备兼容性的可选接收器，随时随地捕获出色的单通道或双通。
2024-04-12
算命真的准吗？国内算命大师介绍

算命术在我国已有几千年的历史，这就足以证明算命一直具有广泛的群众基础，和强大的生命力。但不同算命老师的水准参差不齐，导致。
2024-04-07
京东小魔方上新品啦，MOMAX 摩米士“自带伸缩线全球充”新色首发

这个愚人节，MOMAX摩米士联合京东小魔方推出新色抢购活动！这款摩米士全球转换插座自带70W伸缩快充线，插上即充，真正实现说走就。
2024-04-01

IT动态

清澈如流，包容似海：MOMAX摩米士年度旗舰水系列新品发布

日前，MOMAX摩米士最近推出了年度创新水系列配件产品...
翼辉爱智 EdgerOS 迎来重大更新 XSpirit 2 为用户连接海量视听资

北京时间 12月26日，南京翼辉爱智物联技术有限公司推...
半固态电池+氮化镓逆变，移族助推户外电源进入3.0时代？

当下户外电源市场竞争激烈，众多产品都在努力追求参数...

《Nature》最新研讨大脑中存在分布式强化学习机制

SHURE推出MOVEMIC：尺寸超小、音质更佳的双通道直连手机无线领

算命真的准吗？国内算命大师介绍

京东小魔方上新品啦，MOMAX 摩米士“自带伸缩线全球充”新色首发

IT动态

清澈如流，包容似海：MOMAX摩米士年度旗舰水系列新品发布

翼辉爱智 EdgerOS 迎来重大更新 XSpirit 2 为用户连接海量视听资

半固态电池+氮化镓逆变，移族助推户外电源进入3.0时代？

行业动态

视频

英菲克鼠标的创新设计、好品质和好服务在深圳礼品展得到展示

全球销量再创新高！强力巨彩实力彰显国产LED显示屏先进标准

超5000万用户选择的U盘，aigo以技术创新夯实品牌稳进之基！

超500万用户的品质信赖之选！国产U盘就是aigo