在過去的四到五年中,我們已經(jīng)寫了很多有關(guān)FPGA在不斷擴展的深度學(xué)習(xí)領(lǐng)域(在訓(xùn)練和推理中)可能發(fā)揮的作用的文章。那里的進(jìn)展比某些人預(yù)期的要慢,尤其是在推理方面,考慮到Intel(源自Altera)和Xilinx的設(shè)備具有可重新配置性和較低的功耗選項。似乎有一段時間,覆蓋將是更廣泛采用的解決方案,但是現(xiàn)在看來,新的方向是通過對矩陣元素進(jìn)行打包(您可能已經(jīng)猜到了)來進(jìn)一步對硬件進(jìn)行微調(diào)。
考慮到這一點,英特爾已經(jīng)發(fā)布了新的Stratix 10 NX FPGA的詳細(xì)信息,該Stratix 10 NX FPGA通過更高密度的設(shè)計針對深度學(xué)習(xí)進(jìn)行了優(yōu)化,并支持混合精度,并包括“張量算術(shù)模塊”,它是對標(biāo)準(zhǔn)的修訂版。 Stratix DSP模塊,用于矩陣運算。英特爾還在AI優(yōu)化架構(gòu)的最新概述中提供了有關(guān)網(wǎng)絡(luò)和HBM集成的詳細(xì)信息。
代表DSP的“ AI張量模塊”由密集矩陣數(shù)學(xué)單元組成,可以處理混合精度工作負(fù)載。較小的單元也可以組合使用較大的精度乘法器。就矩陣單位而言,這并不陌生。我們已經(jīng)在許多AI芯片初創(chuàng)公司的各種化身中看到了這一點,這些公司在可重新配置性方面可能具有一些類似FPGA的功能,但不一定在高端數(shù)據(jù)中心FPGA上具有。
如下所示,該體系結(jié)構(gòu)具有三個點積元素,每個塊具有10個乘法器和10個累加器,因此使其適用于矩陣/矩陣和矢量矩陣運算,而沒有大小限制。它針對Int-8和Int-4進(jìn)行了調(diào)整,還可以處理FP16。這里的關(guān)鍵特征是可以將這些張量塊中的幾個組合在一起,以處理更大的向量數(shù)學(xué)。