在即將舉行的MineRL競(jìng)賽中,AI工程師,研究人員等將獲得4天的時(shí)間來開發(fā)能夠通過挖掘在流行的Minecraft游戲中找到鉆石的AI。問題在于參與者將有800萬步訓(xùn)練他們創(chuàng)建的AI來尋找鉆石。這比目前訓(xùn)練AI模型所需的時(shí)間短。因此,參與者必須提出新的工程解決方案才能完成任務(wù)。
在最近的比賽中,人工智能在戰(zhàn)略游戲《星際爭(zhēng)霸2》中擊敗了人類。為了提高挑戰(zhàn)水平,現(xiàn)在需要AI在Minecraft中完成任務(wù)?!缎请H爭(zhēng)霸II》有明確的目標(biāo),可以分解為合理的步驟,然后將其用于訓(xùn)練AI程序。另一方面,《我的世界》是一款大型的開放世界的沙盒游戲,要分解成清晰合理的步驟要困難得多。因此,為Minecraft訓(xùn)練AI程序要復(fù)雜得多。培訓(xùn)步驟的上限為800萬,從而增加了復(fù)雜性。
目前,用于AI的培訓(xùn)方法是強(qiáng)化學(xué)習(xí)。工廠中的機(jī)械臂通過這種方法進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)需要大量的計(jì)算機(jī)處理能力來進(jìn)行訓(xùn)練,其中數(shù)千臺(tái)計(jì)算機(jī)被鏈接在一起進(jìn)行學(xué)習(xí)。
為了克服強(qiáng)化學(xué)習(xí)的缺點(diǎn),研究人員正在開發(fā)模仿學(xué)習(xí)系統(tǒng),在該系統(tǒng)中訓(xùn)練AI程序以模仿人類通過觀察進(jìn)行學(xué)習(xí)的行為。
選擇Minecraft是因?yàn)樗苁軞g迎,因?yàn)榕嘤?xùn)數(shù)據(jù)很容易獲得。實(shí)際上,組織者招募了Minecraft玩家來創(chuàng)建各種工具并打破常規(guī)。收集了超過6000萬個(gè)可以在游戲中采取的動(dòng)作示例,這些視頻可以播放1000小時(shí)的視頻。所有這些都移交給了參與者以培訓(xùn)他們的AI。
Minecraft允許玩家從簡(jiǎn)單的構(gòu)建塊中構(gòu)建復(fù)雜的結(jié)構(gòu)。創(chuàng)建結(jié)構(gòu)的過程可以分解為不同的階段,參與者可以將其用作進(jìn)度的標(biāo)記。
模仿學(xué)習(xí)將使AI能夠吸收所有數(shù)據(jù),在其中尋找模式,并對(duì)游戲做出一些假設(shè),這將構(gòu)成其知識(shí)的基線。