養(yǎng)過寵物的人都知道,動物是非常敏捷的。他們能夠做的一些事情非常令人印象深刻。伯克利伯克利人工智能研究 (BAIR) 實(shí)驗(yàn)室的一組研究人員正試圖教機(jī)器人像動物一樣移動??茖W(xué)家們表示,他們已經(jīng)提出了一個通過模仿動物來學(xué)習(xí)機(jī)器人運(yùn)動技能的框架。
該框架使用記錄的動物參考運(yùn)動剪輯,使用強(qiáng)化學(xué)習(xí)來訓(xùn)練控制策略,使機(jī)器人能夠模仿現(xiàn)實(shí)世界中的運(yùn)動。通過為系統(tǒng)提供不同的參考動作,該團(tuán)隊可以訓(xùn)練四足機(jī)器人執(zhí)行各種敏捷行為。
機(jī)器人學(xué)習(xí)的行為范圍從快速步行門到動態(tài)跳躍和轉(zhuǎn)彎。機(jī)器人的策略最初在模擬環(huán)境中進(jìn)行訓(xùn)練,然后使用潛在空間適應(yīng)技術(shù)將訓(xùn)練轉(zhuǎn)移到現(xiàn)實(shí)世界。該技術(shù)可以使用來自真實(shí)機(jī)器人的有限數(shù)據(jù)量有效地調(diào)整策略。
科學(xué)家表示,該框架具有三個主要組成部分,包括運(yùn)動重定向、運(yùn)動模仿和領(lǐng)域適應(yīng)。使用給定參考運(yùn)動的第一步是創(chuàng)建運(yùn)動重新定位階段圖,將運(yùn)動從原始動物的形態(tài)重新定位到機(jī)器人形態(tài)。下一步是運(yùn)動模仿階段,并使用重新定位的參考運(yùn)動來訓(xùn)練在模擬環(huán)境中模仿運(yùn)動的策略。最后一步是域適應(yīng)階段,通過樣本有效的域適應(yīng)過程將策略從模擬轉(zhuǎn)移到真實(shí)機(jī)器人。
該團(tuán)隊指出,模擬器通常只提供對現(xiàn)實(shí)世界的粗略近似。因此,在模擬中訓(xùn)練的策略在現(xiàn)實(shí)世界中通常表現(xiàn)不佳。轉(zhuǎn)移策略將模擬交易到現(xiàn)實(shí)世界,該團(tuán)隊使用樣本高效的域適應(yīng)技術(shù)使策略適應(yīng)現(xiàn)實(shí)世界,只需在真實(shí)機(jī)器人上進(jìn)行少量試驗(yàn)。該技術(shù)能夠適應(yīng)最初表現(xiàn)不佳的場景,該場景導(dǎo)致機(jī)器人跌倒到機(jī)器人穩(wěn)定的場景中。結(jié)果是一個更快、更流暢的移動機(jī)器人。