來(lái)自DeepMind,大學(xué)學(xué)院和哈佛大學(xué)的一組研究人員發(fā)現(xiàn),將學(xué)習(xí)技術(shù)應(yīng)用于AI系統(tǒng)的經(jīng)驗(yàn)教訓(xùn)可能有助于解釋獎(jiǎng)勵(lì)途徑如何在大腦中發(fā)揮作用。該小組在《自然》雜志上發(fā)表的論文中描述了將計(jì)算機(jī)中的分布強(qiáng)化學(xué)習(xí)與小鼠大腦中的多巴胺處理進(jìn)行比較,以及他們從中學(xué)到的知識(shí)。
先前的研究表明,大腦中產(chǎn)生的多巴胺與獎(jiǎng)賞過(guò)程有關(guān)-它是在發(fā)生好事時(shí)產(chǎn)生的,其表達(dá)會(huì)帶來(lái)愉悅的感覺。一些研究還表明,大腦中對(duì)多巴胺的存在做出反應(yīng)的神經(jīng)元都以相同的方式做出反應(yīng)-事件會(huì)使人或小鼠感覺好壞。其他研究表明,神經(jīng)元反應(yīng)更多是一個(gè)梯度。在這項(xiàng)新工作中,研究人員發(fā)現(xiàn)了支持后一種理論的證據(jù)。
分布式強(qiáng)化學(xué)習(xí)是一種基于強(qiáng)化的機(jī)器學(xué)習(xí)。在設(shè)計(jì)諸如Starcraft II或Go之類的游戲時(shí)經(jīng)常使用它。它會(huì)跟蹤好動(dòng)作與壞動(dòng)作之間的關(guān)系,并學(xué)會(huì)減少壞動(dòng)作的數(shù)量,并發(fā)揮更多的性能。但是,這樣的系統(tǒng)不會(huì)對(duì)所有好的和壞的動(dòng)作都一視同仁-每個(gè)動(dòng)作在記錄時(shí)都經(jīng)過(guò)加權(quán),權(quán)重是做出未來(lái)動(dòng)作選擇時(shí)所使用的計(jì)算的一部分。
研究人員指出,人類似乎也使用類似的策略來(lái)提高他們的游戲水平。倫敦的研究人員懷疑,人工智能系統(tǒng)與大腦進(jìn)行獎(jiǎng)勵(lì)處理的方式之間的相似性也可能相似。為了確定它們是否正確,他們對(duì)小鼠進(jìn)行了實(shí)驗(yàn)。他們將能夠插入單個(gè)多巴胺神經(jīng)元反應(yīng)的設(shè)備插入大腦。然后,對(duì)小鼠進(jìn)行培訓(xùn)以執(zhí)行一項(xiàng)任務(wù),在這些任務(wù)中,它們會(huì)以期望的方式獲得獎(jiǎng)勵(lì)。
小鼠神經(jīng)元反應(yīng)表明,它們并非都像先前理論所預(yù)測(cè)的那樣以相同的方式反應(yīng)。取而代之的是,他們以可靠的不同方式做出反應(yīng)-就像團(tuán)隊(duì)所預(yù)測(cè)的那樣,表明小鼠所體驗(yàn)到的愉悅程度更多是一種梯度。