聽說過查詢重寫嗎?這是一種用于減輕口語理解(SLU)管道中的錯誤的技術(shù),例如支持Amazon的Alexa,Google Assistant,Apple的Siri和其他語音助手的管道。許多SLU系統(tǒng)分為兩個部分:負責將音頻轉(zhuǎn)換為文本的自動語音識別(ASR)系統(tǒng),以及從結(jié)果摘要中提取含義的自然語言理解組件(NLU),而且每個問題都會帶來錯誤(例如,由于背景噪音和說話者口音造成的文字識別錯誤)會累積并引起會話摩擦。
幸運的是,查詢重寫已在生產(chǎn)系統(tǒng)中顯示出令人鼓舞的結(jié)果;它需要記錄本并重寫,然后再將其發(fā)送到下游NLU系統(tǒng)。這可能就是為什么Drexel大學和Amazon的研究人員在預印本紙上研究了一種方法,該方法使用AI用重新構(gòu)造的查詢代替原始查詢。
團隊的系統(tǒng)使用經(jīng)過訓練的模型來從查詢中捕獲潛在的句法和語義信息,從而選擇最相關(guān)的候選項作為查詢的重寫。給定輸入查詢,嵌入器模塊通過將查詢輸入預先訓練的上下文詞模型中來提取表示形式。然后將該表示形式合并為查詢級別的數(shù)學表示形式(嵌入),此時將使用一種機制來測量兩個查詢的相似性。數(shù)百萬索引的原始查詢和重寫來自從Alexa的歷史數(shù)據(jù)中選擇的一組預定義的高精度重寫對,而最相關(guān)的是由系統(tǒng)按需檢索。
研究人員指出:“ SLU系統(tǒng)中的NLU組件為查詢提供了半結(jié)構(gòu)化的語義表示,其中可以通過相同的NLU假設(shè)將各種文本形式但具有相同語義的查詢組合在一起。”“例如,'請您播放想象中的巨龍','打開想象中的巨龍'[和]'播放想象中的巨龍的歌曲'具有相同的語義和相同的NLU假設(shè),但是它們的文字不同。直觀地講,使用噪聲較小的NLU假設(shè)來擴充查詢文本可能會有所幫助。”
為了訓練該系統(tǒng),該團隊構(gòu)建了兩個數(shù)據(jù)集:一個用于預訓練話語嵌入,另一個用于微調(diào)預訓練的模型。預訓練集包括1100萬個會話,涉及約3000萬話語,而微調(diào)集(使用現(xiàn)有的重新短語檢測模型管道生成)具有220萬對話語。
研究人員通過在16,000對帶注釋的測試集中,將檢索到的重寫候選的NLU假設(shè)與實際的NLU假設(shè)進行比較,從而評估了查詢重寫性能。對于每個給定的查詢,他們檢索了前20個重寫,并且使用重寫的NLU假設(shè)通過標準信息檢索指標來測量系統(tǒng)性能。
該團隊報告說,預訓練不僅顯著減少了對高質(zhì)量查詢檢索訓練對的需求,而且“顯著”提高了性能。他們寫道:“盡管我們在本文中專注于QR任務(wù)的預訓練,但我們認為類似的策略可能會應(yīng)用于NLU中的其他任務(wù),” [例如]域分類。