數(shù)十年來(lái),機(jī)器已經(jīng)能夠理解簡(jiǎn)單的音樂(lè)功能,例如每分鐘的節(jié)拍數(shù)。現(xiàn)在,人工智能正在將他們的能力提高到一個(gè)點(diǎn),即他們不僅可以弄清楚正在播放的音樂(lè)的特定類(lèi)型,還可以弄清楚如何適當(dāng)?shù)靥琛?/p>
顯然,EDM俱樂(lè)部中的舞蹈風(fēng)格與人們?cè)诰频暄鐣?huì)廳中跳動(dòng)的方式大不相同。即使您不是鄉(xiāng)村音樂(lè)的狂熱者,當(dāng)您聽(tīng)到懷舊的“鄉(xiāng)村小路”合唱時(shí),您的腳也可能會(huì)輕拍并且搖搖頭。我們的身體對(duì)各種音樂(lè)刺激的反應(yīng)幾乎是本能的-如何將其教給機(jī)器?
加利福尼亞大學(xué),默塞德大學(xué)和NVIDIA大學(xué)的研究人員引入了一種通過(guò)分析進(jìn)行綜合的學(xué)習(xí)框架Music2Dance,該框架可以為不同音樂(lè)流派產(chǎn)生“風(fēng)格一致且節(jié)拍匹配的舞蹈”。這項(xiàng)工作將于下個(gè)月在溫哥華的NuerIPS 2019上發(fā)表。
研究人員介紹了一種新穎的分解到合成框架,該框架可以將基本的身體動(dòng)作轉(zhuǎn)化為以音樂(lè)為條件的復(fù)雜舞蹈。分解階段通過(guò)運(yùn)動(dòng)節(jié)拍檢測(cè)器定義和標(biāo)準(zhǔn)化從真實(shí)舞蹈序列視頻中分割的舞蹈單元,學(xué)習(xí)如何執(zhí)行基本的舞蹈動(dòng)作。在作曲階段,音樂(lè)對(duì)運(yùn)動(dòng)的生成對(duì)抗網(wǎng)絡(luò)(GAN)生成以音樂(lè)為條件的舞蹈動(dòng)作。研究人員然后提取樣式和節(jié)拍,以循環(huán)的方式合成舞蹈單元,并對(duì)所生成的舞蹈單元序列應(yīng)用“節(jié)拍整經(jīng)器”以渲染最終的輸出舞蹈。
研究人員將其分解到合成框架與LSTM和Aud-MoCoGAN等基準(zhǔn)進(jìn)行了比較,這些指標(biāo)包括運(yùn)動(dòng)逼真度,樣式一致性,多樣性,多模式性,拍子覆蓋率和命中率。研究人員提出的框架產(chǎn)生的舞蹈更加逼真,多樣,并且與音樂(lè)的同步性更好。今年早些時(shí)候,麻省理工學(xué)院CSAIL還對(duì)音頻和視頻之間的跨模式學(xué)習(xí)進(jìn)行了有趣的研究。在他們的論文《Speech2Face:學(xué)習(xí)聲音背后的臉》中,研究人員設(shè)計(jì)并訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò),以根據(jù)人們的短語(yǔ)音錄音來(lái)重建人們的面部圖像。
盡管AI研究人員通常不被稱(chēng)為派對(duì)動(dòng)物,但他們似乎確實(shí)對(duì)舞蹈充滿(mǎn)熱情。Synced于10月發(fā)布了故事《搖動(dòng)你的贓物:一張照片中的AI深度假裝舞步》,該報(bào)道報(bào)道了上??萍即髮W(xué)和騰訊AI實(shí)驗(yàn)室研究人員的3D身體網(wǎng)格恢復(fù)模塊Liquid Warping GAN,它可以從一張照片中將假舞步深化。這篇論文介紹了這項(xiàng)研究液體翹曲GAN:模仿人體運(yùn)動(dòng),外觀轉(zhuǎn)移和新穎視圖合成的統(tǒng)一框架。