麻省理工學院的研究人員創(chuàng)建了一個新系統(tǒng),該系統(tǒng)使用機器學習來幫助語言學家破譯已被時間遺忘的語言。研究表明,大多數(shù)曾經(jīng)存在過的語言都不再使用了,有幾十種已死的語言被認為是無法破譯的。語言學家對語法、詞匯和句法了解不夠,無法理解這些遺失語言中留下的文本。
語言學家面臨的挑戰(zhàn)很多,包括許多這些丟失的語言都沒有可以與之相比的經(jīng)過充分研究的相關語言。有些還缺少分隔符,如空格和標點符號。麻省理工學院計算機科學與人工智能實驗室最近在破譯丟失的語言方面取得了突破。
研究人員創(chuàng)建了一個新系統(tǒng),該系統(tǒng)能夠自動破譯丟失的語言,而無需了解其與其他語言的關系。該系統(tǒng)可以確定語言之間的關系,最近,它被用來暗示伊比利亞語與巴斯克語無關,正如一些語言學家所認為的那樣。該項目的科學家的最終目標是能夠僅使用幾千個單詞就能破譯那些讓語言學家感到困惑的語言。
項目負責人 Regina Barzilay 表示,該系統(tǒng)依賴于基于歷史語言學見解的七項原則。這些原則認為語言通常只會以可預測的方式發(fā)展。語言很少添加或刪除整個聲音,并且很可能會發(fā)生聲音替換。例如,在母語中帶有“P”的單詞在后代語言中可以變成“B”,但由于發(fā)音差距,不太可能變成“K”。
使用這些語言限制,麻省理工學院的研究人員開發(fā)了一種破譯算法,能夠處理可能的轉(zhuǎn)換的巨大空間。該算法學習將語言聲音嵌入到多維空間中,其中發(fā)音差異反映在對應向量之間的距離上。該模型旨在對古代語言中的單詞進行分割,并將它們映射到相關語言中的對應詞。