久久久精品久久久蜜桃_国产sm精品调教网站_日本喷奶水视频中文字幕97

Facebook AI研究人員的一個團隊最近開發(fā)了一種算法，即“其他游戲(OP)”，該算法構(gòu)建的策略可以使未經(jīng)其他代理商訓(xùn)練的代理商獲得高回報(零鏡頭協(xié)調(diào)的一種形式)。如果要求不高，這項工作可以大大提高自動駕駛汽車的性能，自動駕駛汽車利用零擊協(xié)調(diào)在道路上的障礙物和駕駛員周圍導(dǎo)航。

研究人員研究了馬爾可夫游戲，即僅依賴于以一種或另一種方式總結(jié)游戲歷史的變量的游戲。(例如，變量可以是重復(fù)游戲中的當前游戲，也可以是最近游戲序列的任何解釋。)游戲是部分可觀察的，并且其玩家(由AI驅(qū)動的特工)共享以聯(lián)合獎勵為條件的獎勵他們采取的行動和游戲狀態(tài)。因此，目標是使期望收益最大化。

在實驗中，該團隊將OP(它使用問題描述來協(xié)調(diào)代理人而不是動作標簽)應(yīng)用于一種杠桿游戲，其中要求代理人從10個杠桿中選擇一個來與未知的陌生人進行協(xié)調(diào)。他們說，在訓(xùn)練階段和測試時間，OP代理與其他OP代理配對時都執(zhí)行零擊協(xié)調(diào)。相比之下，互相競爭以發(fā)現(xiàn)策略的自我扮演代理在訓(xùn)練階段獲得了較高的回報，但未能與其他獨立訓(xùn)練的自我扮演代理進行協(xié)調(diào)。

接下來，研究人員將OP應(yīng)用于合作式紙牌游戲Hanabi。在哈納比(Hanabi)，從總共有五張牌的一手牌中發(fā)給玩家。每回合，他們必須(1)在另一位玩家的手上露出紙牌的花色或號碼，(2)丟棄紙牌，或(3)玩一張尚未打過的花色為“ 1”的紙牌或下一順序號的西裝是已被播放。我們的目標是通過每套打出的最高張牌的價值來獲得最高分-這項任務(wù)比聽起來要更具挑戰(zhàn)性。公開有關(guān)卡的信息消耗了八個可用信息令牌之一，只能通過丟棄或成功打出“ 5”的任何西裝來補充。同時，打牌失敗會消耗三種可用之一融合令牌。

根據(jù)研究人員的說法，OP改善了交叉游戲，從而消除了自游戲中出現(xiàn)的“不人道”慣例，這對于人類來說通常是很難(或不可能)理解的。(例如，在沒有OP的情況下，自打特工可能會提示某種顏色，以表示它丟棄了一張牌，而其伙伴則將此解釋為在玩另一張牌。)