Nvidia的研究團隊剛剛開發(fā)了一種新的AI,可以使用現(xiàn)有的視頻和一個圖像來使圖像中的人模仿視頻中的動作。
從技術上講,稱為視頻到視頻合成的方法將輸入視頻(如分割蒙版或人體姿勢)使用圖像轉換為逼真的視頻。研究團隊表示,當前的AI模型試圖實現(xiàn)相同目標存在兩個主要問題:首先,這些模型需要大量目標圖像才能將它們轉換為視頻。其次,這些模型概括輸出的能力受到限制。
為了克服這些障礙,研究人員訓練了一種新的模型,該模型學會僅使用其中的一些圖像來生成以前看不見的人或場景的視頻(訓練數(shù)據(jù)集中不存在的圖像)。然后,團隊在各種場景(例如舞步和會說話的頭)上對此進行了測試。您可以在下面的視頻中查看正在運行的AI:該模型還可用于繪畫或街道上以創(chuàng)建實時化身或數(shù)字化掌握的街道場景。這對于制作電影和游戲非常方便。
就像在“黑客新聞”主題中討論的人們所指出的那樣,人工智能還不是很完美,很難分辨這些低分辨率視頻中的所有細節(jié)是否正確。但是,對制作合成視頻進行研究非常有用。
您可以通過本文了解有關該研究的更多信息。您也可以查看代碼并通過在此處簽出代碼來進行自己的修改。