新聞:用于總結(jié)科學(xué)文獻(xiàn)的新AI模型現(xiàn)在可以幫助研究人員涉獵并確定他們想閱讀的最新前沿論文。11月16日,艾倫人工智能研究所(AI2)將模型推廣到其旗艦產(chǎn)品Semantic Sc??holar,這是一種由AI驅(qū)動(dòng)的科學(xué)論文搜索引擎。當(dāng)用戶使用搜索功能或進(jìn)入作者頁(yè)面時(shí),它在每篇計(jì)算機(jī)科學(xué)論文(目前)下提供一句tl; dr(太長(zhǎng);沒(méi)有閱讀)摘要。這項(xiàng)工作也被本周的“自然語(yǔ)言處理的經(jīng)驗(yàn)方法”會(huì)議接受。
背景:在信息過(guò)載的時(shí)代,使用AI來(lái)總結(jié)文本一直是一個(gè)流行的自然語(yǔ)言處理(NLP)問(wèn)題。有兩種一般方法可以完成此任務(wù)。一個(gè)被稱(chēng)為“抽取式”,它試圖從逐字記錄中找到一個(gè)句子或一組句子,以抓住其本質(zhì)。另一個(gè)被稱(chēng)為“抽象的”,涉及生成新的句子。盡管由于NLP系統(tǒng)的局限性,提取技術(shù)曾經(jīng)更加流行,但是近年來(lái)自然語(yǔ)言生成的進(jìn)步使抽象技術(shù)變得更好了。
他們是如何做到的: AI2的抽象模型使用了所謂的變壓器-一種神經(jīng)網(wǎng)絡(luò)架構(gòu),于2017年首次發(fā)明,此后推動(dòng)了NLP的所有重大飛躍,包括OpenAI的GPT-3。研究人員首先在通用的語(yǔ)料庫(kù)上訓(xùn)練了轉(zhuǎn)換器,以建立對(duì)英語(yǔ)的基本熟悉程度。此過(guò)程稱(chēng)為“預(yù)訓(xùn)練”,是使變壓器如此強(qiáng)大的部分原因。然后,他們針對(duì)匯總的特定任務(wù)微調(diào)了模型(換句話說(shuō),對(duì)其進(jìn)行了進(jìn)一步的培訓(xùn))。
微調(diào)數(shù)據(jù):研究人員首先創(chuàng)建了一個(gè)名為SciTldr的數(shù)據(jù)集,其中包含大約5400對(duì)科學(xué)論文和相應(yīng)的單句摘要。為了找到這些高質(zhì)量的摘要,他們首先在OpenReview上尋找了它們,OpenReview是一個(gè)公開(kāi)的會(huì)議論文提交平臺(tái),研究人員通常在該平臺(tái)上發(fā)表自己的論文一句摘要。這提供了兩千對(duì)。然后,研究人員雇用了注釋者,通過(guò)閱讀和進(jìn)一步濃縮同行評(píng)審員已經(jīng)撰寫(xiě)的摘要來(lái)總結(jié)更多論文。