微軟透露了其最大的深度學習語言模型,即圖靈自然語言生成(T-NLG),據(jù)稱它具有破紀錄的170億個參數(shù)。
根據(jù)微軟的說法,T-NLG的表現(xiàn)優(yōu)于迄今為止最大的深度學習模型:華盛頓大學的Grover-Mega和Nvidia的MegatronLM,其參數(shù)分別為1.5和83億。
根據(jù)Microsoft的說法,T-NLG能夠完成未完成的句子,并生成問題的直接答案,并可以創(chuàng)建輸入其中的文檔摘要。
微軟還聲稱該模型能夠直接用完整的句子回答問題。
微軟的應用科學家科比·羅塞特(Corby Rosset)解釋說:“此功能在網(wǎng)絡(luò)搜索之外更為重要-例如,當用戶詢問有關(guān)其個人數(shù)據(jù)的問題(例如電子郵件或Word文檔)時,它可以使AI助手智能地做出響應。”
他還感謝DeepSpeed庫和ZeRO優(yōu)化器產(chǎn)生了“突破”,如果沒有這些突破,“這項工作將是不可能的”。
“圖靈自然語言生成(T-NLG)是Microsoft提供的170億參數(shù)語言模型,在許多下游NLP任務上均勝過最新技術(shù)。我們向?qū)W者們展示了該模型的演示,包括其自由格式生成,問題回答和摘要功能,以供反饋和研究之用。” T-NLG說。