去年2月,位于舊金山的研究實(shí)驗(yàn)室OpenAI 宣布其AI系統(tǒng)現(xiàn)在可以編寫令人信服的英語文章。將句子或段落的開頭輸入到GPT-2中,就像它具有與人類相似的連貫性一樣,它可以使思想繼續(xù)下去。
現(xiàn)在,實(shí)驗(yàn)室正在研究如果將相同的算法代入圖像的一部分會(huì)發(fā)生什么情況。結(jié)果在本周的國際機(jī)器學(xué)習(xí)大會(huì)上獲得了最佳論文的榮譽(yù)獎(jiǎng),它為圖像生成開辟了一條新途徑,機(jī)遇與后果并存。
GPT-2的核心是強(qiáng)大的預(yù)測引擎。它通過查看從互聯(lián)網(wǎng)的各個(gè)角落刮掉的數(shù)十億個(gè)單詞,句子和段落的示例來學(xué)習(xí)掌握英語的結(jié)構(gòu)。通過這種結(jié)構(gòu),它可以通過統(tǒng)計(jì)預(yù)測單詞出現(xiàn)的順序,將單詞操縱為新的句子。
因此,OpenAI的研究人員決定將單詞換成像素,并在ImageNet(最流行的深度學(xué)習(xí)圖像庫)中的圖像上訓(xùn)練相同的算法。因?yàn)樵撍惴ū辉O(shè)計(jì)為處理一維數(shù)據(jù)(即文本字符串),所以它們將圖像展開為單個(gè)像素序列。他們發(fā)現(xiàn)名為iGPT的新模型仍然能夠掌握視覺世界的二維結(jié)構(gòu)。給定圖像上半部分的像素序列,它可以以人類認(rèn)為明智的方式預(yù)測下半部分。
在下面,您可以看到一些示例。最左邊的列是輸入,最右邊的列是原始輸入,中間的列是iGPT的預(yù)測完成量。(在此處查看更多示例。)
結(jié)果令人震驚,并顯示了在計(jì)算機(jī)視覺系統(tǒng)開發(fā)中使用無監(jiān)督學(xué)習(xí)的新途徑,該方法可對未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。雖然2000年代中期的早期計(jì)算機(jī)視覺系統(tǒng)之前曾試用過此類技術(shù),但由于使用標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)被證明更為成功,因此它們不受歡迎。但是,無監(jiān)督學(xué)習(xí)的好處在于,它允許AI系統(tǒng)在沒有人工過濾的情況下了解世界,并大大減少了標(biāo)記數(shù)據(jù)的人工工作。
iGPT使用與GPT-2相同的算法的事實(shí)也顯示了其有希望的適應(yīng)性。這符合OpenAI實(shí)現(xiàn)更通用的機(jī)器智能的最終雄心。
同時(shí),該方法提出了一種有關(guān)創(chuàng)建深層偽造圖像的新方法。生成對抗網(wǎng)絡(luò)(過去用于創(chuàng)建深造假的最常見算法)必須經(jīng)過高度精選的數(shù)據(jù)訓(xùn)練。例如,如果您想讓GAN生成人臉,則其訓(xùn)練數(shù)據(jù)應(yīng)僅包括人臉。相比之下,iGPT只是從數(shù)十億個(gè)示例中了解了足夠多的視覺世界結(jié)構(gòu),以吐出其中可能存在的圖像。盡管訓(xùn)練模型仍然在計(jì)算上很昂貴,但為模型的訪問提供了自然障礙,這種情況可能不會(huì)長期存在。