伊人久久精品在热线热_无码精品A∨在线观看短视频_午夜福利中文字幕首页

機器人領(lǐng)域向前邁出了一步，緊隨其后的又是另一步。最近，一個名為Rainbow Dash的機器人自學(xué)了走路。這只四腳機器只需要幾個小時就可以學(xué)會向前和向后行走，并在此過程中左右旋轉(zhuǎn)。

谷歌，加州大學(xué)伯克利分校和佐治亞理工學(xué)院的研究人員在ArXiv預(yù)印服務(wù)器上發(fā)表了一篇論文，描述了一種統(tǒng)計AI技術(shù)，即深度強化學(xué)習(xí)，他們用來產(chǎn)生這種成就，這是很重要的，其原因有很多。

大多數(shù)強化學(xué)習(xí)部署都在計算機模擬的環(huán)境中進行。但是，Rainbow Dash使用此技術(shù)來學(xué)習(xí)在實際物理環(huán)境中行走。

而且，它能夠在沒有專門的教學(xué)機制的情況下進行操作，例如人工指導(dǎo)或帶有標(biāo)簽的培訓(xùn)數(shù)據(jù)。最終，Rainbow Dash成功地在多個表面上行走，包括柔軟的泡沫床墊和帶有明顯凹口的門墊。

機器人使用的深度強化學(xué)習(xí)技術(shù)包括一種機器學(xué)習(xí)，其中代理與環(huán)境交互以通過反復(fù)試驗來學(xué)習(xí)。大多數(shù)強化學(xué)習(xí)用例都涉及計算機游戲，其中數(shù)字特工學(xué)習(xí)如何玩贏。

這種形式的機器學(xué)習(xí)與傳統(tǒng)的有監(jiān)督或無監(jiān)督學(xué)習(xí)明顯不同，在傳統(tǒng)的有監(jiān)督或無監(jiān)督學(xué)習(xí)中，機器學(xué)習(xí)模型需要標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)。深度強化學(xué)習(xí)將強化學(xué)習(xí)方法與深度學(xué)習(xí)相結(jié)合，傳統(tǒng)的機器學(xué)習(xí)的規(guī)模隨著強大的計算能力而大大擴展。盡管研究團隊將Rainbow Dash的學(xué)習(xí)能力歸功于自己，但人為干預(yù)仍在實現(xiàn)該目標(biāo)方面發(fā)揮了重要作用。研究人員必須創(chuàng)建邊界，機器人可以在該邊界內(nèi)學(xué)習(xí)走路，以防止機器人離開該區(qū)域。

他們還必須設(shè)計特定的算法來防止機器人摔倒，其中一些算法集中在限制機器人的運動上。為了防止諸如墜落損壞之類的事故，通常在數(shù)字環(huán)境中進行機器人強化學(xué)習(xí)，然后再將算法轉(zhuǎn)移到物理機器人上以保持其安全性。

彩虹短跑的勝利發(fā)生大約一年后，研究人員最初想出如何讓機器人在物理學(xué)習(xí)，而不是虛擬的，周圍的環(huán)境。

斯坦福大學(xué)與Google無關(guān)的助理教授切爾西·芬恩(Chelsea Finn)表示，“將人員從[學(xué)習(xí)]過程中撤離確實很困難。通過允許機器人自主學(xué)習(xí)，機器人將更接近于能夠在現(xiàn)實世界中學(xué)習(xí)我們的生活。”