英特爾的Dell EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室正在通過(guò)語(yǔ)言到語(yǔ)言翻譯和文本到語(yǔ)音翻譯的深度學(xué)習(xí)展示可能的藝術(shù)。
自然語(yǔ)言處理是人工智能的一種形式,它允許計(jì)算機(jī)應(yīng)用程序理解口頭或書(shū)面的人類(lèi)語(yǔ)言。NLP的概念包括對(duì)語(yǔ)言的編碼,理解,解釋和操縱。NLP應(yīng)用程序使用計(jì)算機(jī)來(lái)翻譯語(yǔ)言,將語(yǔ)音轉(zhuǎn)換為文本并將文本轉(zhuǎn)換為語(yǔ)音,并創(chuàng)建類(lèi)似于人的對(duì)話代理以幫助客戶,員工和其他人處理問(wèn)題。
近年來(lái),通過(guò)從統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法到使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的轉(zhuǎn)變,NLP領(lǐng)域發(fā)生了變化。通過(guò)這些方法,現(xiàn)在可以構(gòu)建可以比以往任何時(shí)候都更加自然地與人交互的自動(dòng)化系統(tǒng)。前瞻性企業(yè)正在抓住機(jī)遇,將NLP納入其面向客戶活動(dòng)和內(nèi)部運(yùn)營(yíng)的廣泛流程中。
為了幫助組織利用這一趨勢(shì),Dell EMC和英特爾®一直在推動(dòng)NLP應(yīng)用程序開(kāi)發(fā)的技術(shù)和方法。位于德克薩斯州奧斯汀的Dell EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室的團(tuán)隊(duì)在此領(lǐng)域中正在進(jìn)行兩個(gè)關(guān)鍵項(xiàng)目:一個(gè)涉及語(yǔ)言到語(yǔ)言翻譯,另一個(gè)涉及文本到語(yǔ)音翻譯。
語(yǔ)言到語(yǔ)言的翻譯
在該實(shí)驗(yàn)室致力于語(yǔ)言到語(yǔ)言翻譯的項(xiàng)目中,數(shù)據(jù)科學(xué)家正在努力解決與使用神經(jīng)網(wǎng)絡(luò)將一種人類(lèi)語(yǔ)言轉(zhuǎn)換為另一種人類(lèi)語(yǔ)言相關(guān)的關(guān)鍵問(wèn)題。此過(guò)程涉及從源語(yǔ)言獲取輸入并將其轉(zhuǎn)換為目標(biāo)語(yǔ)言。
在此過(guò)程中,翻譯模型首先讀取源語(yǔ)言中的句子,然后將其傳遞給編碼器,該編碼器將構(gòu)建中間表示形式。然后將該中間表示傳遞給解碼器,該解碼器處理中間表示以產(chǎn)生目標(biāo)語(yǔ)言的翻譯句子。
對(duì)于語(yǔ)言到語(yǔ)言的翻譯項(xiàng)目,團(tuán)隊(duì)首先從Google創(chuàng)建的股票拓?fù)溟_(kāi)始,然后改進(jìn)了一些基礎(chǔ)數(shù)學(xué),以更有效地并行化工作流程。目標(biāo)是在數(shù)百個(gè)計(jì)算節(jié)點(diǎn)上運(yùn)行模型,以更快地找到解決方案。
在長(zhǎng)達(dá)數(shù)月的優(yōu)化過(guò)程中,該團(tuán)隊(duì)研究了系統(tǒng)如何使用內(nèi)存,執(zhí)行計(jì)算以及結(jié)果的準(zhǔn)確性。對(duì)模型準(zhǔn)確性的驗(yàn)證確保了加快計(jì)算速度不會(huì)產(chǎn)生質(zhì)量較低的答案。
計(jì)算資源
在該項(xiàng)目中,HPC和AI創(chuàng)新實(shí)驗(yàn)室團(tuán)隊(duì)利用了Dell EMC Zenith超級(jí)計(jì)算機(jī),該超級(jí)計(jì)算機(jī)由PowerEdge服務(wù)器和英特爾第二代可擴(kuò)展至強(qiáng)處理器構(gòu)成。這TOP500系統(tǒng),戴爾EMC和英特爾之間的伙伴關(guān)系產(chǎn)生的,可作為內(nèi)部團(tuán)隊(duì)一個(gè)標(biāo)桿系統(tǒng),以及用于評(píng)估的資源。
此外,實(shí)驗(yàn)室團(tuán)隊(duì)還利用位于德克薩斯大學(xué)奧斯汀分校的德克薩斯高級(jí)計(jì)算中心(TACC)的Dell EMC Stampede2超級(jí)計(jì)算機(jī)的處理能力。這種基于Intel的系統(tǒng)在2019年6月的TOP500排名中排名第19 位,是一項(xiàng)戰(zhàn)略性國(guó)家資源,可為美國(guó)成千上萬(wàn)的研究人員提供HPC功能。
該團(tuán)隊(duì)將語(yǔ)言到語(yǔ)言翻譯的訓(xùn)練模型的過(guò)程擴(kuò)展到多達(dá)512個(gè)節(jié)點(diǎn),而不會(huì)對(duì)結(jié)果的質(zhì)量產(chǎn)生負(fù)面影響。這一發(fā)現(xiàn)表明,現(xiàn)在可以在不破壞當(dāng)前技術(shù)水平的情況下以更快的速度和更大的規(guī)模訓(xùn)練這些模型。
文字到語(yǔ)音翻譯
文本到語(yǔ)音的翻譯采用文字并將其轉(zhuǎn)換為音頻。目的是合成一個(gè)完整的音頻波形,而不使用過(guò)去20年來(lái)一直在電話系統(tǒng)上收聽(tīng)的機(jī)械化片段錄音。
通過(guò)這些更高級(jí)的方法,開(kāi)發(fā)人員可以使用由成績(jī)單和配音演員讀取該成績(jī)單的剪輯組成的訓(xùn)練數(shù)據(jù)。這些資源可作為創(chuàng)建計(jì)算機(jī)將模仿的聲音的培訓(xùn)基礎(chǔ)。然后,開(kāi)發(fā)人員訓(xùn)練神經(jīng)網(wǎng)絡(luò)以產(chǎn)生聽(tīng)起來(lái)與演員的聲音極為相似的模擬聲音。
對(duì)于文本到語(yǔ)音翻譯項(xiàng)目,團(tuán)隊(duì)使用了一個(gè)分為兩個(gè)部分的過(guò)程,并提供了兩種深度學(xué)習(xí)模型:
他們首先采用文本并將其轉(zhuǎn)換為頻譜圖圖像,然后采用一種深度學(xué)習(xí)模型。該頻譜圖圖像是預(yù)期會(huì)在結(jié)果語(yǔ)音中產(chǎn)生的字母和聲音的頻率分布。
然后,該團(tuán)隊(duì)創(chuàng)建了第二個(gè)模型,該模型采用頻譜圖并生成完整的音頻波形,該波形使用了演員在訓(xùn)練過(guò)程中使用的逼真的合成聲音。
在這個(gè)正在進(jìn)行的項(xiàng)目中,他們現(xiàn)在正在努力加速產(chǎn)生音頻波形的過(guò)程。
HPC和AI創(chuàng)新實(shí)驗(yàn)室的工作展示了創(chuàng)建逼真的聲音的能力,并且并行化可以在相對(duì)較短的時(shí)間內(nèi)完成任務(wù)。通過(guò)將超級(jí)計(jì)算機(jī)上的流程并行化并利用英特爾®軟件優(yōu)化,該團(tuán)隊(duì)將生成逼真的語(yǔ)音模型的過(guò)程從一個(gè)多月減少到了不到三天。
重要要點(diǎn)
對(duì)于想要簡(jiǎn)化與客戶,員工,合作伙伴和其他人的交互的企業(yè)和其他組織,自然語(yǔ)言處理是一種潛在的強(qiáng)大工具。為了幫助組織利用這一機(jī)會(huì),戴爾EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室致力于推動(dòng)開(kāi)發(fā)語(yǔ)言到語(yǔ)言翻譯和文本到語(yǔ)音翻譯應(yīng)用程序的技術(shù)和方法。