英偉達(dá)(Nvidia)研究人員在本周發(fā)表的預(yù)印研究論文中提出了一種人類到機(jī)器人交接的方法,其中機(jī)器人會(huì)在半途中遇到人類,對(duì)人類的抓握進(jìn)行分類,并計(jì)劃一條從人類手中拿走物體的軌跡。他們聲稱與基線相比,移交更為流暢,他們說這可以為協(xié)作式倉(cāng)庫(kù)機(jī)器人的設(shè)計(jì)提供參考,從而提高工人的生產(chǎn)率。
正如合著者所解釋的那樣,越來越多的研究集中在實(shí)現(xiàn)無縫人機(jī)切換的問題上。假設(shè)人類可以將物體反向放置在機(jī)器人的夾具中,那么大多數(shù)解決了將物體從機(jī)器人傳遞到人類的挑戰(zhàn)。但是,人和物體姿態(tài)估計(jì)的準(zhǔn)確性會(huì)受到遮擋的影響(即,當(dāng)物體和手相互遮擋時(shí)),并且人類在搬運(yùn)物體時(shí)經(jīng)常需要注意其他任務(wù)。
Nvidia小組離散化了人類將小物件固定在幾類中的方式,因此,如果一只手抓住一個(gè)障礙物,則該姿勢(shì)可以分為“打開式”,“捏式”,“捏式” ,“捏側(cè)”或“提起”。然后,他們使用Microsoft Azure Kinect深度相機(jī)編輯數(shù)據(jù)集,以訓(xùn)練AI模型將持物體的手分類為這些類別之一,特別是通過向?qū)ο箫@示手的示例圖像并記錄對(duì)象的行為20至60秒的姿勢(shì)相似。在錄制過程中,該人可以將其身體和手移動(dòng)到不同的位置,以使相機(jī)的視點(diǎn)多樣化,并且捕獲了對(duì)象的左右手,共拍攝了151,551張圖像。
研究人員將交接任務(wù)建模為所謂的“健壯的邏輯動(dòng)力學(xué)系統(tǒng)”,該系統(tǒng)會(huì)生成運(yùn)動(dòng)計(jì)劃,從而避免在給定分類的情況下機(jī)械手與手之間發(fā)生接觸。該系統(tǒng)必須適應(yīng)不同的可能的抓握,并做出反應(yīng)選擇接近人類并從中獲取物體的方式。直到它穩(wěn)定地估計(jì)出人們想要如何展示該塊時(shí),它才會(huì)停留在“原始”位置并等待。
在一系列實(shí)驗(yàn)中,研究人員對(duì)一系列不同的手部姿勢(shì)和握法進(jìn)行了系統(tǒng)的綜述,包括分類模型和任務(wù)模型。來自Franka Amika的兩個(gè)不同的熊貓機(jī)器人安裝在不同位置的同一張桌子上,人類用戶將四個(gè)不同顏色的塊交給了它們。