近年來(lái),全球許多研究團(tuán)隊(duì)一直在開(kāi)發(fā)和評(píng)估技術(shù),以使腿式機(jī)器人實(shí)現(xiàn)不同的運(yùn)動(dòng)風(fēng)格。訓(xùn)練機(jī)器人像人或動(dòng)物一樣走路的一種方法是讓它們分析并模擬真實(shí)世界的演示。這種方法稱為模仿學(xué)習(xí)。
蘇格蘭愛(ài)丁堡大學(xué)的研究人員最近設(shè)計(jì)了一個(gè)框架,用于訓(xùn)練人形機(jī)器人通過(guò)人類演示像人一樣行走。在arXiv上預(yù)發(fā)表的一篇論文中提出的這個(gè)新框架將模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)技術(shù)與機(jī)器人控制理論相結(jié)合,以實(shí)現(xiàn)人形機(jī)器人的自然運(yùn)動(dòng)和動(dòng)態(tài)運(yùn)動(dòng)。
“我們著手研究的關(guān)鍵問(wèn)題是如何將(1)機(jī)器人運(yùn)動(dòng)中的有用人類知識(shí)和(2)模仿人類的運(yùn)動(dòng)捕獲數(shù)據(jù)納入深度強(qiáng)化學(xué)習(xí)范例,以更有效地提升有腿機(jī)器人的自主能力,” Chuanyu進(jìn)行這項(xiàng)研究的研究人員之一,楊告訴TechXplore。我們提出了兩種將人類先驗(yàn)知識(shí)引入DRL框架的方法。”
Yang和他的同事設(shè)計(jì)的框架基于獨(dú)特的獎(jiǎng)勵(lì)設(shè)計(jì),該設(shè)計(jì)使用人類步行的運(yùn)動(dòng)字幕數(shù)據(jù)作為訓(xùn)練參考。另外,它利用了兩種專門的分層神經(jīng)架構(gòu),即相功能神經(jīng)網(wǎng)絡(luò)(PFNN)和模式自適應(yīng)神經(jīng)網(wǎng)絡(luò)(MANN)。
Yang解釋說(shuō):“復(fù)制類似人的運(yùn)動(dòng)方式的關(guān)鍵是引入人的行走數(shù)據(jù),作為學(xué)習(xí)代理模仿的專家演示。” “獎(jiǎng)勵(lì)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)的重要方面,因?yàn)樗渲淼男袨椤?rdquo;
Yang和他的同事使用的獎(jiǎng)勵(lì)設(shè)計(jì)包括一個(gè)任務(wù)術(shù)語(yǔ)和一個(gè)模仿術(shù)語(yǔ)。這些組件中的第一個(gè)組件為類人機(jī)器人實(shí)現(xiàn)高水平的運(yùn)動(dòng)提供了必要的指導(dǎo),而后者則可以實(shí)現(xiàn)更人性化和自然的行走方式。這種獨(dú)特的設(shè)計(jì)與其他常規(guī)人形控制方法背后的關(guān)鍵理論概念保持一致。
研究人員通過(guò)在模擬環(huán)境中進(jìn)行的一系列實(shí)驗(yàn)評(píng)估了他們的模仿學(xué)習(xí)框架。他們發(fā)現(xiàn),即使在存在干擾或不良因素(例如地形不規(guī)則或外部推動(dòng))的情況下,它也能夠在各種情況下產(chǎn)生強(qiáng)大的運(yùn)動(dòng)行為。
楊說(shuō):“通過(guò)利用人類的步行動(dòng)作作為人工代理模仿的專家演示,我們可以加快學(xué)習(xí)速度,提高整體任務(wù)績(jī)效。” “人類的示范知識(shí)使我們能夠更有意義地設(shè)計(jì)學(xué)習(xí)框架,這被證明總體上對(duì)運(yùn)動(dòng)技能和運(yùn)動(dòng)控制有益。”
這組研究人員收集的發(fā)現(xiàn)表明,專家演示(在此示例中為人類行走的鏡頭)可以顯著增強(qiáng)深度強(qiáng)化學(xué)習(xí)技術(shù),以針對(duì)不同的運(yùn)動(dòng)風(fēng)格訓(xùn)練機(jī)器人。最終,他們提出的新框架可用于訓(xùn)練類人機(jī)器人,使其以與人類相似的方式更快,更高效地行走,同時(shí)還實(shí)現(xiàn)更自然和類似人類的行為。
具有模仿效果的自然且類似人的步態(tài):人類的演示確保AI策略不會(huì)偏離建議的動(dòng)作。圖片來(lái)源:Yang等
到目前為止,Yang和他的同事們只在仿真中評(píng)估了他們的框架,因此他們現(xiàn)在計(jì)劃研究將其從仿真環(huán)境轉(zhuǎn)移到現(xiàn)實(shí)環(huán)境的方法。他們最終希望在真正的人形機(jī)器人上實(shí)現(xiàn)它,以便進(jìn)一步評(píng)估其有效性和可用性。
楊說(shuō):“在未來(lái)的工作中,我們還計(jì)劃擴(kuò)展學(xué)習(xí)框架,以模仿更加多樣化和復(fù)雜的人類運(yùn)動(dòng),例如橫跨運(yùn)動(dòng),操縱和抓握的一般運(yùn)動(dòng)技能。” “我們還計(jì)劃研究有效的從仿真到現(xiàn)實(shí)的策略傳輸,以實(shí)現(xiàn)對(duì)真正機(jī)器人的學(xué)習(xí)策略的快速部署。”