在AI和機(jī)器學(xué)習(xí)系統(tǒng)中,通常通過訓(xùn)練小模型(學(xué)生)來模仿大而笨重的模型(老師)來積累知識(shí)。這個(gè)想法是通過使用其輸出作為標(biāo)簽來壓縮老師的知識(shí)以優(yōu)化學(xué)生的知識(shí),但是并不能保證當(dāng)老師很大時(shí)知識(shí)會(huì)轉(zhuǎn)移給學(xué)生。
這就是為什么一個(gè)亞馬遜研究人員小組在最近的一項(xiàng)研究中開發(fā)了一種將大型模型的內(nèi)部表示提煉為簡化版本的技術(shù)。他們聲稱,在實(shí)驗(yàn)中,從表示中添加知識(shí)蒸餾往往比僅使用標(biāo)記蒸餾更為穩(wěn)定。
所提出的方法允許上述學(xué)生通過轉(zhuǎn)移其語言特性在內(nèi)部扮演教師的角色。通過教師輸出中的標(biāo)簽對(duì)學(xué)生進(jìn)行優(yōu)化,并通過匹配其內(nèi)部表示來獲取隱藏在教師中的抽象。
在典型的AI模型中,神經(jīng)元(數(shù)學(xué)函數(shù))排列在相互連接的層中,這些層傳輸來自輸入數(shù)據(jù)的“信號(hào)”并緩慢調(diào)整每個(gè)連接的突觸強(qiáng)度(權(quán)重)。在上述技術(shù)中,對(duì)學(xué)生的各層進(jìn)行了優(yōu)化以使其與教師的各層相匹配,以便從最低層(最靠近輸入)的知識(shí)先于高層被提取。這使學(xué)生能夠系統(tǒng)地學(xué)習(xí)和壓縮教師各層中的抽象。
研究人員在通用語言理解評(píng)估(GLUE)基準(zhǔn)的四個(gè)數(shù)據(jù)集上進(jìn)行了涉及GoogleBERT的實(shí)驗(yàn),該數(shù)據(jù)集是用于訓(xùn)練,評(píng)估和分析自然語言處理算法的資源集合。即使在模型每隔兩層老師跳過一層的情況下,他們也報(bào)告說學(xué)生能夠復(fù)制老師教的行為。此外,在學(xué)生模型中復(fù)制了教師的泛化能力,這意味著學(xué)生可能會(huì)犯錯(cuò)教師。它證明了基準(zhǔn)數(shù)據(jù)集的性能提高了5-10%,其中包括團(tuán)隊(duì)組裝的大型新Reddit數(shù)據(jù)集。
“不同于標(biāo)準(zhǔn)的[知識(shí)蒸餾]方法,即學(xué)生僅從教師的輸出概率中學(xué)習(xí),我們通過揭示教師的內(nèi)部表示來教我們較小的模型。研究人員在描述他們工作的論文中寫道:“除了保持類似的表現(xiàn),我們的方法還可以有效地將教師的內(nèi)部行為壓縮到學(xué)生中。”“這在標(biāo)準(zhǔn)的[知識(shí)蒸餾]方法中不能得到保證,這可能會(huì)影響最初打算從教師那里轉(zhuǎn)移過來的泛化能力。”