亚洲国产欧美91_在线欧美网站免费_尤物91资源在线无码

人工智能和機器學(xué)習(xí)算法越來越善于預(yù)測視頻中的下一個動作。在最好的可以相當(dāng)準(zhǔn)確地預(yù)測，其中后一個棒球威力旅游已經(jīng)投了，或者的公路里程從起始位置的外觀。為此，谷歌，密歇根大學(xué)和Adobe的研究人員提出了一種新穎的方法，該方法利用大型模型提高了藝術(shù)水平，該模型僅用幾幀即可生成高質(zhì)量的視頻。更令人印象深刻的是，它無需像以前的方法那樣依賴光流(場景中物體，表面或邊緣的明顯運動的模式)或地標(biāo)等技術(shù)就可以做到這一點。

研究人員在描述其工作的預(yù)印本論文中寫道：“在這項工作中，我們只是通過最大化標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的容量來研究是否能夠?qū)崿F(xiàn)高質(zhì)量的視頻預(yù)測。”“據(jù)我們所知，這項工作是第一個對容量增加對視頻預(yù)測的影響進行徹底調(diào)查的工作。”

團隊的基準(zhǔn)模型建立在現(xiàn)有的隨機視頻生成(SVG)架構(gòu)的基礎(chǔ)上，并具有對未來預(yù)測中固有的不確定性進行建模的組件。他們針對為三種預(yù)測類別量身定制的數(shù)據(jù)集分別訓(xùn)練和測試了模型的多個版本：對象交互，結(jié)構(gòu)化運動和部分可觀察性。對于第一個任務(wù)(對象交互)，研究人員從機器人手臂與毛巾交互的視頻語料庫中選擇了256個視頻，對于第二個(結(jié)構(gòu)化運動)，他們從Human 3.6M中提取了片段，該語料庫包含了人類執(zhí)行動作的片段就像坐在椅子上一樣。至于部分可觀察性任務(wù)，他們使用了來自前車儀表板攝像機鏡頭的開源KITTI駕駛數(shù)據(jù)集。

團隊將每個模型的條件調(diào)整為2到5個視頻幀，并讓模型在訓(xùn)練期間預(yù)測未來的5到10幀-針對所有任務(wù)的分辨率為低分辨率(64 x 64像素)，分辨率為低分辨率和高分辨率(128 x 128)像素)用于對象互動任務(wù)。在測試期間，模型最多生成25幀。

研究人員報告說，通過Amazon Mechanical Turk招募的評估人員，在對象交互，結(jié)構(gòu)化運動和部分可觀察性任務(wù)方面，最大的模型之一分別有90.2%，98.7%和99.3%的時間更可取。定性地，研究小組注意到，該模型清晰地描繪了人類的手臂和腿，并做出了“非常敏銳的預(yù)測，與地面真實情況相比，這些預(yù)測看起來很現(xiàn)實。