深度學(xué)習(xí)人工智能正在幫助解決現(xiàn)代世界中的許多問題。但它也可以在幫助解決一些古老問題方面發(fā)揮作用,例如協(xié)助翻譯來自波斯阿契美尼德帝國(Achaemenid Empire)的2500年歷史的黏土平板文件。
這些藥片于1933年在現(xiàn)代伊朗被發(fā)現(xiàn),已經(jīng)被學(xué)者研究了數(shù)十年。但是,他們發(fā)現(xiàn)平板電腦的翻譯過程非常麻煩,并且容易出錯,該翻譯過程數(shù)以萬計。人工智能技術(shù)可以提供幫助。
芝加哥大學(xué)計算機科學(xué)系助理教授Sanjay Krishnan告訴“數(shù)字趨勢”:“我們進行了應(yīng)用機器學(xué)習(xí)的初步實驗,以識別平板電腦圖像中存在哪些楔形文字符號。”“機器學(xué)習(xí)通過從人類標(biāo)記的示例中推斷模式來進行工作,這使我們將來能夠自動執(zhí)行注釋。我們認為,這是對這些平板電腦的分析和研究實現(xiàn)重大自動化的一步。”
在這種情況下,帶有人標(biāo)簽的示例是波斯波利斯要塞存檔(PFA)的在線文化和歷史研究環(huán)境(OCHRE)數(shù)據(jù)集中的帶注釋的平板電腦。在DeepScribe中,芝加哥大學(xué)東方學(xué)院的研究人員與計算機科學(xué)系合作,他們使用了6,000多個帶批注圖像的訓(xùn)練集,建立了一個神經(jīng)網(wǎng)絡(luò),能夠讀取館藏中未經(jīng)分析的藥片。當(dāng)該算法在其他平板電腦上進行測試時,它能夠以大約80%的準(zhǔn)確度翻譯楔形文字。希望將來可以提高此基準(zhǔn)。即使沒有發(fā)生,該系統(tǒng)也可以用于翻譯大量藥片,使人類學(xué)者可以將精力集中在真正困難的地方。
“楔形文字是自公元前三千年以來使用的一種腳本,用于編寫包括Sumerian,Akkadian和Elamite在內(nèi)的多種語言,”Assyriology副教授Susanne Paulus對《數(shù)字趨勢》表示。
楔形文字對機器翻譯提出了一系列特殊的挑戰(zhàn)。首先,它是通過將蘆葦筆打入濕粘土中來編寫的。這使楔形文字成為極少數(shù)的三維腳本系統(tǒng)之一。其次,楔形文字是使用數(shù)百個符號的復(fù)雜腳本系統(tǒng)。每個符號根據(jù)其上下文具有不同的含義。第三,楔形文字片是古老的人工制品。它們經(jīng)常被打碎并且難以解讀,這意味著閱讀一臺平板電腦可能需要幾天的時間。
克里希南說:“到目前為止,我們有一個初步的原型,表明這種技術(shù)在受控環(huán)境中非常有效。”“考慮到單個符號的清晰圖像,[我們可以]確定該符號是什么。我們的下一步是開發(fā)考慮上下文和數(shù)據(jù)質(zhì)量的更強大的模型。”