手机免费看国产欧美精品_久久精品国产9久久综合_免费无码一区二区三区视频_亚洲综合精品一二三区在线

您的位置:首頁>AI>

研究人員吹捧可以預(yù)測未來25個視頻幀的AI

人工智能和機器學(xué)習(xí)算法越來越善于預(yù)測視頻中的下一個動作。在最好的可以相當(dāng)準(zhǔn)確地預(yù)測,其中后一個棒球威力旅游已經(jīng)投了,或者的公路里程從起始位置的外觀。為此,谷歌,密歇根大學(xué)和Adobe的研究人員提出了一種新穎的方法,該方法利用大型模型提高了藝術(shù)水平,該模型僅用幾幀即可生成高質(zhì)量的視頻。更令人印象深刻的是,它無需像以前的方法那樣依賴光流(場景中物體,表面或邊緣的明顯運動的模式)或地標(biāo)等技術(shù)就可以做到這一點。

研究人員在描述其工作的預(yù)印本論文中寫道:“在這項工作中,我們只是通過最大化標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的容量來研究是否能夠?qū)崿F(xiàn)高質(zhì)量的視頻預(yù)測。”“據(jù)我們所知,這項工作是第一個對容量增加對視頻預(yù)測的影響進行徹底調(diào)查的工作。”

團隊的基準(zhǔn)模型建立在現(xiàn)有的隨機視頻生成(SVG)架構(gòu)的基礎(chǔ)上,并具有對未來預(yù)測中固有的不確定性進行建模的組件。他們針對為三種預(yù)測類別量身定制的數(shù)據(jù)集分別訓(xùn)練和測試了模型的多個版本:對象交互,結(jié)構(gòu)化運動和部分可觀察性。對于第一個任務(wù)(對象交互),研究人員從機器人手臂與毛巾交互的視頻語料庫中選擇了256個視頻,對于第二個(結(jié)構(gòu)化運動),他們從Human 3.6M中提取了片段,該語料庫包含了人類執(zhí)行動作的片段就像坐在椅子上一樣。至于部分可觀察性任務(wù),他們使用了來自前車儀表板攝像機鏡頭的開源KITTI駕駛數(shù)據(jù)集。

團隊將每個模型的條件調(diào)整為2到5個視頻幀,并讓模型在訓(xùn)練期間預(yù)測未來的5到10幀-針對所有任務(wù)的分辨率為低分辨率(64 x 64像素),分辨率為低分辨率和高分辨率(128 x 128)像素)用于對象互動任務(wù)。在測試期間,模型最多生成25幀。

研究人員報告說,通過Amazon Mechanical Turk招募的評估人員,在對象交互,結(jié)構(gòu)化運動和部分可觀察性任務(wù)方面,最大的模型之一分別有90.2%,98.7%和99.3%的時間更可取。定性地,研究小組注意到,該模型清晰地描繪了人類的手臂和腿,并做出了“非常敏銳的預(yù)測,與地面真實情況相比,這些預(yù)測看起來很現(xiàn)實。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!