這已經(jīng)不是什么秘密,機(jī)器學(xué)習(xí)模型調(diào)整和調(diào)整,以近乎完美的表現(xiàn)在實(shí)驗(yàn)室中真正的設(shè)置往往會(huì)失敗。這通常歸因于AI經(jīng)過(guò)訓(xùn)練和測(cè)試的數(shù)據(jù)與它在世界上遇到的數(shù)據(jù)之間的不匹配,這就是數(shù)據(jù)移位問(wèn)題。例如,訓(xùn)練有素的AI可以在高質(zhì)量的醫(yī)學(xué)圖像中發(fā)現(xiàn)疾病跡象,而在繁忙的診所中,這些圖像將被廉價(jià)相機(jī)捕獲的模糊或裁剪圖像所困擾。
現(xiàn)在,由來(lái)自Google的七個(gè)不同團(tuán)隊(duì)的40名研究人員組成的小組已經(jīng)確定了導(dǎo)致機(jī)器學(xué)習(xí)模型普遍失敗的另一個(gè)主要原因。被稱為“規(guī)格不足”的問(wèn)題可能比數(shù)據(jù)移位更大。負(fù)責(zé)這項(xiàng)研究的Alex D'Amour表示:“我們要求的機(jī)器學(xué)習(xí)模型超出了我們現(xiàn)有方法所不能保證的范圍。”規(guī)格不足是統(tǒng)計(jì)中的已知問(wèn)題,其中觀察到的影響可能有許多可能的原因。擁有因果推理背景的D'Amour想知道為什么自己的機(jī)器學(xué)習(xí)模型在實(shí)踐中經(jīng)常失敗。他想知道規(guī)格不足是否也是這里的問(wèn)題。D'Amour很快意識(shí)到,許多同事在自己的模型中都注意到了同樣的問(wèn)題。他說(shuō):“實(shí)際上這是一個(gè)現(xiàn)象,到處都是。”
D'Amour的初步調(diào)查如雨后春筍般涌現(xiàn),數(shù)十名Google研究人員最終研究了從圖像識(shí)別到自然語(yǔ)言處理(NLP)到疾病預(yù)測(cè)的各種不同的AI應(yīng)用程序。他們發(fā)現(xiàn)規(guī)格不足歸咎于所有人的表現(xiàn)不佳。問(wèn)題出在對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試的方式上,而且沒(méi)有容易解決的方法。
iRobot的機(jī)器學(xué)習(xí)工程師布蘭登·羅勒(Brandon Rohrer)說(shuō),這篇論文是“令人震驚的球”,他曾在Facebook和Microsoft工作過(guò),但并未參與這項(xiàng)工作。
相同但不同
要確切了解正在發(fā)生的事情,我們需要備份一點(diǎn)。粗略地講,建立機(jī)器學(xué)習(xí)模型涉及對(duì)大量示例進(jìn)行訓(xùn)練,然后對(duì)許多尚未見(jiàn)過(guò)的類似示例進(jìn)行測(cè)試。模型通過(guò)測(cè)試后,就可以完成。
Google研究人員指出的是,這個(gè)門檻太低了。訓(xùn)練過(guò)程可以產(chǎn)生許多都通過(guò)測(cè)試的不同模型,但是,這是關(guān)鍵部分,這些模型將以小的任意方式有所不同,具體取決于像在訓(xùn)練開(kāi)始之前為神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)賦予隨機(jī)值之類的事情,選擇或表示訓(xùn)練數(shù)據(jù)的方式,訓(xùn)練的運(yùn)行次數(shù)等。如果這些微小的,通常是隨機(jī)的差異不影響模型在測(cè)試中的表現(xiàn),通常會(huì)被忽略。但事實(shí)證明,它們可能導(dǎo)致現(xiàn)實(shí)世界中的性能發(fā)生巨大變化。
換句話說(shuō),當(dāng)今用于構(gòu)建大多數(shù)機(jī)器學(xué)習(xí)模型的過(guò)程無(wú)法確定哪些模型可以在現(xiàn)實(shí)世界中工作,哪些模型不能在現(xiàn)實(shí)世界中工作。