一级日本高清在线观看_五月天无码久久AV_无码人妻天天干天天射天天添

在過去的四到五年中，我們已經(jīng)寫了很多有關(guān)FPGA在不斷擴(kuò)展的深度學(xué)習(xí)領(lǐng)域(在訓(xùn)練和推理中)可能發(fā)揮的作用的文章。那里的進(jìn)展比某些人預(yù)期的要慢，尤其是在推理方面，考慮到Intel(源自Altera)和Xilinx的設(shè)備具有可重新配置性和較低的功耗選項(xiàng)。似乎有一段時(shí)間，覆蓋將是更廣泛采用的解決方案，但是現(xiàn)在看來，新的方向是通過對(duì)矩陣元素進(jìn)行打包(您可能已經(jīng)猜到了)來進(jìn)一步對(duì)硬件進(jìn)行微調(diào)。

考慮到這一點(diǎn)，英特爾已經(jīng)發(fā)布了新的Stratix 10 NX FPGA的詳細(xì)信息，該Stratix 10 NX FPGA通過更高密度的設(shè)計(jì)針對(duì)深度學(xué)習(xí)進(jìn)行了優(yōu)化，并支持混合精度，并包括“張量算術(shù)模塊”，它是對(duì)標(biāo)準(zhǔn)的修訂版。 Stratix DSP模塊，用于矩陣運(yùn)算。英特爾還在AI優(yōu)化架構(gòu)的最新概述中提供了有關(guān)網(wǎng)絡(luò)和HBM集成的詳細(xì)信息。

代表DSP的“ AI張量模塊”由密集矩陣數(shù)學(xué)單元組成，可以處理混合精度工作負(fù)載。較小的單元也可以組合使用較大的精度乘法器。就矩陣單位而言，這并不陌生。我們已經(jīng)在許多AI芯片初創(chuàng)公司的各種化身中看到了這一點(diǎn)，這些公司在可重新配置性方面可能具有一些類似FPGA的功能，但不一定在高端數(shù)據(jù)中心FPGA上具有。

如下所示，該體系結(jié)構(gòu)具有三個(gè)點(diǎn)積元素，每個(gè)塊具有10個(gè)乘法器和10個(gè)累加器，因此使其適用于矩陣/矩陣和矢量矩陣運(yùn)算，而沒有大小限制。它針對(duì)Int-8和Int-4進(jìn)行了調(diào)整，還可以處理FP16。這里的關(guān)鍵特征是可以將這些張量塊中的幾個(gè)組合在一起，以處理更大的向量數(shù)學(xué)。