手机免费看国产欧美精品_久久精品国产9久久综合_免费无码一区二区三区视频_亚洲综合精品一二三区在线

您的位置:首頁(yè)>科技>

Facebook的AI檢測(cè)到文本中的性別偏見(jiàn)

在本周發(fā)表的一篇技術(shù)論文中,F(xiàn)acebook研究人員描述了一個(gè)框架,該框架可以沿多個(gè)維度分解文本中的性別偏見(jiàn),他們使用該框架來(lái)注釋數(shù)據(jù)集并評(píng)估性別偏見(jiàn)分類(lèi)器。如果實(shí)驗(yàn)結(jié)果能說(shuō)明問(wèn)題,那么該團(tuán)隊(duì)的工作可能會(huì)從性別角度揭示進(jìn)攻性語(yǔ)言,甚至可能控制自然語(yǔ)言處理(NLP)模型中的性別偏見(jiàn)。

研究人員稱(chēng),所有數(shù)據(jù)集,注釋和分類(lèi)器都將公開(kāi)發(fā)布。

一個(gè)公開(kāi)的秘密是,人工智能系統(tǒng)和受其訓(xùn)練的語(yǔ)料庫(kù)經(jīng)常反映出性別定型觀念和其他偏見(jiàn)。實(shí)際上,谷歌最近在Google翻譯中引入了針對(duì)性別的翻譯,主要是為了解決性別偏見(jiàn)??茖W(xué)家們提出了一系列的方法來(lái)減輕和衡量這個(gè),最近有一個(gè)排行榜,挑戰(zhàn)和指標(biāo)集的配音StereoSet。但是很少(如果有的話(huà))得到廣泛使用。

Facebook團(tuán)隊(duì)表示,其工作考慮了人類(lèi)如何通過(guò)社交和社交方式構(gòu)建語(yǔ)言和性別認(rèn)同。也就是說(shuō),正在發(fā)言它占(1)從人的性別偏壓約,(2)從所述人的性別偏壓正在發(fā)言到,和(3)從揚(yáng)聲器的性別偏見(jiàn)。該框架試圖以這種方式捕捉描述女性的形容詞,動(dòng)詞和名詞與描述男性的形容詞,動(dòng)詞和名詞不同的事實(shí)。收件人的性別影響他們與他人交談的方式;以及性別對(duì)一個(gè)人的身份的重要性。

利用此框架和Facebook的ParlAI(用于訓(xùn)練和測(cè)試NLP模型的開(kāi)源Python工具集),研究人員開(kāi)發(fā)了分類(lèi)器,將句子的偏見(jiàn)分解為維度-偏見(jiàn)于所討論人員的性別等,同時(shí)包括性別信息。落在男女二進(jìn)制數(shù)之外。團(tuán)隊(duì)對(duì)分類(lèi)器進(jìn)行了培訓(xùn),內(nèi)容包括從Wikipedia,F(xiàn)unpedia(非正式的Wikipedia版本),Yelp評(píng)論,OpenSubtitles(電影對(duì)話(huà)),LIGHT(聊天幻想對(duì)話(huà))和其他來(lái)源中提取的一系列文本。之所以選擇這些關(guān)鍵字,是因?yàn)樗鼈儼嘘P(guān)作者和收件人性別的信息,可以為模型的決策提供依據(jù)。

研究人員還通過(guò)收集兩名志愿者演講者之間的對(duì)話(huà),創(chuàng)建了一個(gè)專(zhuān)門(mén)的評(píng)估語(yǔ)料庫(kù)-MDGender,每個(gè)演講者都有一個(gè)包含性別信息的角色描述,并負(fù)責(zé)采用該角色并與維基百科的傳記部分進(jìn)行對(duì)話(huà)。注釋者被要求重寫(xiě)對(duì)話(huà)中的每個(gè)回合,以清楚地表明他們是在談?wù)撘粋€(gè)男人或一個(gè)女人,以一個(gè)男人或一個(gè)女人的身份說(shuō)話(huà),并且正在與一個(gè)男人或女人說(shuō)話(huà)。例如,對(duì)“您今天好嗎?我剛下班”可能被改寫(xiě)為“嘿,我和我的朋友和她的狗一起去喝咖啡。”

在實(shí)驗(yàn)中,研究小組評(píng)估了針對(duì)MDGender的性別偏見(jiàn)分類(lèi)器,測(cè)量了男性,女性和中性類(lèi)別的百分比準(zhǔn)確性。他們發(fā)現(xiàn),性能最佳的模型(即所謂的多任務(wù)模型)在所有數(shù)據(jù)集上正確地分解了77%的句子,而在Wikipedia上則僅分解了81.82%的句子。

在另一組測(cè)試中,研究人員應(yīng)用性能最佳的分類(lèi)器來(lái)控制所生成文本的性別,在Wikipedia中檢測(cè)有偏見(jiàn)的文本,并探索令人反感的內(nèi)容與性別之間的相互作用。

他們報(bào)告說(shuō),在包含來(lái)自Reddit的250,000個(gè)文本片段的數(shù)據(jù)集上對(duì)分類(lèi)器進(jìn)行訓(xùn)練后,分類(lèi)器就可以根據(jù)命令生成性別句子,例如“ Awwww,聽(tīng)起來(lái)很棒”和“您可以做到!”單獨(dú)地,該模型設(shè)法對(duì)一組傳記中的段落進(jìn)行評(píng)分,以識(shí)別哪些是“大約”維度中的男性(74%偏向男性),但是分類(lèi)器對(duì)女性頁(yè)面的女性化更有信心,這表明女性傳記包含更多性別的文字)。最后,在對(duì)分類(lèi)器進(jìn)行訓(xùn)練并將其應(yīng)用于流行的帶有明顯性別的單詞的語(yǔ)料庫(kù)之后,他們發(fā)現(xiàn)25%的男性單詞屬于“令人反感”的類(lèi)別,例如“性暗示”。

“在理想的世界中,我們期望描述男性,女性和具有其他性別認(rèn)同的人的文字之間幾乎沒(méi)有區(qū)別,除了使用明顯的性別詞語(yǔ),例如代詞或名字。因此,機(jī)器學(xué)習(xí)模型將無(wú)法掌握性別標(biāo)簽之間的統(tǒng)計(jì)差異(即性別偏見(jiàn)),因?yàn)檫@樣的差異將不存在。不幸的是,我們知道情況并非如此。”合著者寫(xiě)道。“我們?yōu)榇四康奶峁┝艘粋€(gè)更細(xì)粒度的框架,分析了模型和數(shù)據(jù)中性別偏見(jiàn)的存在,并通過(guò)發(fā)布可用于解決眾多基于文本的用例的這些問(wèn)題的工具來(lái)賦予他人權(quán)力。”

免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章