印度人平均花費超過8.5GB的移動數(shù)據(jù),其中大部分用于視頻。去年,YouTube表示,超過95%的內(nèi)容消費是使用區(qū)域語言。因此,自然而然地,人們對白話視頻產(chǎn)生了濃厚的興趣,但并非所有創(chuàng)作者都知道所有印度語。
一種解決方案是配音。上周,就在Parasite獲得了奧斯卡金像獎之后,母親瓊斯聲稱配音優(yōu)于翻譯字幕。但是讓我告訴你,這很糟糕。我看過很多用印地語配音的英語電影,我要么受不了,要么就死于笑??谛屯酵ǔ2豢捎?,配音似乎很不自然。
[閱讀:新西蘭首位AI警務(wù)人員上班報告]
現(xiàn)在,來自印度南部城市海得拉巴的國際信息技術(shù)學(xué)院的研究人員開發(fā)了一種新的AI模型,該模型可以將視頻從一種語言翻譯成語音同步并以另一種語言正確同步。
該小組表示,我們已經(jīng)擁有從視頻中獲取翻譯的文本或語音輸出的技術(shù)。但是,配音過程中會丟失視覺轉(zhuǎn)換(如嘴唇移動)。為了解決這個問題,印度研究人員開發(fā)了一種名為LipGAN的新型對抗性生成網(wǎng)絡(luò)(GAN)。雖然它可以匹配原始視頻中翻譯文本的唇部動作,但它也可以校正配音電影中的唇部動作。
為了翻譯視頻,該模型使用語音識別來轉(zhuǎn)錄視頻中的語音。然后,它使用為印度語言訓(xùn)練的專門模型來翻譯文本,例如從英語翻譯成印地語。然后語音識別模型將其轉(zhuǎn)換為語音。語音到語音翻譯再加上LipGAN,構(gòu)成了整個模型。研究人員指出,他們的翻譯模型比Google Translate更準(zhǔn)確。
IIIT-H研發(fā)部院長CV Jawahar教授說,這項技術(shù)將有助于創(chuàng)建更多以區(qū)域語言編寫的內(nèi)容:
從頭開始手動創(chuàng)建本地語言內(nèi)容,甚至手動翻譯和復(fù)制現(xiàn)有視頻都無法以創(chuàng)建數(shù)字內(nèi)容的速度擴展。這就是為什么我們希望它是完全自動化的。
麻省理工學(xué)院和其他享有盛譽的機構(gòu)針對各種主題制作了精美的視頻,僅因他們無法理解口音而無法為更多的印度觀眾所用。忘了鄉(xiāng)親,連我都不懂!
團(tuán)隊補充說,該模型仍然在視頻中移動或多張面孔方面掙扎。除了解決這些問題外,團(tuán)隊還希望在翻譯后改善面部表情。