如果您曾經(jīng)嘗試過與聊天機器人進行對話,那么您會知道,即使是當今最先進的系統(tǒng),也不是精通口才,經(jīng)常會分發(fā)無意義或痛苦的通用響應(yīng)。
不過,現(xiàn)在,谷歌創(chuàng)建了一個聊天機器人Meena,它說它比經(jīng)過測試的其他機器人都要好-這是該公司支持使用其專門開發(fā)的一種新指標來衡量AI的對話能力的說法。
進行對話
創(chuàng)建Meena(在預(yù)打印服務(wù)器arXiv上發(fā)表的論文中詳細介紹的過程)之后,Google需要一種評估聊天機器人的方法。為此,它開發(fā)了一種稱為“敏感性和特異性平均數(shù)”(SSA)的物質(zhì)。
為了計算該指標,Google要求人類工作者與Meena和其他幾個開放域聊天機器人進行大約100次自由形式的對話。每次聊天機器人做出響應(yīng)時,工作人員都必須回答關(guān)于響應(yīng)的兩個問題。
首先,它在對話中是否具有邏輯和上下文意義?如果是的話,他們必須回答這個問題,“它是特定于對話嗎?”這是為了清除所有常規(guī)響應(yīng)-例如,如果人類寫下他們喜歡網(wǎng)球,而聊天機器人回答“很好”,則該響應(yīng)將被標記為“不具體”。Google確定,普通人的SSA分數(shù)將達到86%。
團隊研究中的其他聊天機器人得分在31%到56%之間。但是,Meena的得分為79%,這使AI可以比其他聊天機器人更接近人類的預(yù)期對話水平。