可組合的基礎(chǔ)架構(gòu)專家Liqid接受了Nvidia的DGX-2,這是AI計算的2 petaFLOPS超級巨星,而新貴表示,它已經(jīng)使用現(xiàn)成的技術(shù)構(gòu)建了類似的基于GPU的超級計算機,其價格僅為DGX-2和DGX的一半。在ResNet-50圖像識別基準上提供了20%以上的性能提升。
Liqid的新系統(tǒng)LQD8360利用該公司的PCIe可組合結(jié)構(gòu),Dell Technologies PowerEdge R640服務(wù)器和多達20個Nvidia Quadro RTS 8000 GPU的擴展機箱,這些擴展機箱在單獨的物理機箱或JBOG中將GPU封裝在一起的GPU)。Liqid告訴我們,其Command Center軟件與智能,低延遲,基于PCIe的架構(gòu)相結(jié)合,使GPU可以在裸機級別與Dell Technologies R640節(jié)點進行動態(tài)配置。
結(jié)果:根據(jù)TensorFlow ResNet-50基準,LQS8360系統(tǒng)實現(xiàn)了每秒超過15,000幅圖像的圖像訓練吞吐量,而DGX-2的則為12,000 /秒。
Liqid首席執(zhí)行官兼聯(lián)合創(chuàng)始人Sumit Puri對我們說:“它是世界上最快的單計算機之一。” “而且我們并不是通過構(gòu)建一堆奇特的硬件來做到這一點的。為此,我們采用了標準的現(xiàn)成硬件,并組成了可產(chǎn)生世界最高性能的配置。現(xiàn)在……我們將在Dell進行SKU處理,客戶將可以直接從Dell購買。”
普里拒絕透露具體的美元數(shù)據(jù),他說LQD8360的價格將約為DGX-2的一半,后者的標價為399,000美元。
可以肯定的是,Puri并未為其系統(tǒng)申請“ DGX-2殺手”的稱號。實際上,他說Nvidia是Liqid's的技術(shù)合作伙伴,Nvidia有助于調(diào)整LQS8360的性能。相反,他強調(diào)說LQS8360特別適合“視覺密集型”工作負載(例如監(jiān)視視頻的實時分析,面部識別,車牌識別,智能城市交通監(jiān)控),因此使用ResNet基準測試,該指標可每秒可識別的圖像,可用于機器學習訓練操作和推理。
這兩個系統(tǒng)之間的主要區(qū)別在于它們各自的GPU:LQS8360使用了較便宜和較舊的Nvidia Quadro RTX 8000,而DGX-2采用了Nvidia的更新的,價格更高的V100 Tensor Core。
“ DGX-2基于V100平臺,V100是一種特定類型的GPU,正在推動某些以數(shù)據(jù)中心為中心的工作負載,” Puri說。“英偉達很可能永遠不會基于RT X 8000 GPU來構(gòu)建DGX-2,因為它不是它們的最高端旗艦產(chǎn)品。我們發(fā)現(xiàn)的是采用RTX 8000并將其部署到我們的結(jié)構(gòu)中并以適當?shù)姆绞綄ζ溥M行配置,在某些情況下,我們可以達到與DGX-2解決方案競爭的性能水平;在其他情況下,(LQS8360)實際上更適合渲染作業(yè),而DGX-2可能更多機器學習…在某些工作負載下,客戶可能希望使用V100,因為對于他們給定的工作負載而言,V100的表現(xiàn)會更好。
行業(yè)觀察家Moor Insights&Strategy的 HPC和機器學習高級分析師Karl Freund 表示,Liqid出售LQD8360來渲染工作負載而非AI可能會取得更大的成功。他在一封電子郵件中告訴我們:“ Quadro RTX是a)通過較慢的(2X)PCIe與NVLink相連接,b)沒有HBM內(nèi)存,c)沒有張量核心,”他在一封電子郵件中告訴我們。“但是他們能夠?qū)⑵渲械?0個打包到服務(wù)器中,這令人印象深刻。”
他還指出,盡管ResNet-50用于小圖像,但“許多AI正在解決更大的問題,為此NVLink將提供更好的可伸縮性。” 關(guān)于這兩個系統(tǒng)之間的價格性能差異,F(xiàn)reund表示,“對于渲染而言,這更重要,恕我直言,它也不需要以對延遲敏感的方式進行擴展。”
在構(gòu)建LQD8360時,Liqid與電信提供商Orange Silicon Valley(戴爾是跨國電信運營商Orange SA(以前的法國Télécom)的子公司)合作。
LQD8360具有裸機的可組合性和經(jīng)過優(yōu)化的Dell BIOS,可以將多達20個RTX 8000 GPU分配給結(jié)構(gòu)上的PowerEdge R640節(jié)點,而無需重新設(shè)計物理機箱,使其成為業(yè)內(nèi)容量最高的擴展機箱(JBOG)。到Liqid。當配置有20個GPU(每個具有48GB的內(nèi)存容量)時,系統(tǒng)將提供960GB的VRAM并啟用Nvidia GPUDirect對等功能,從而允許在結(jié)構(gòu)上每個GPU的內(nèi)存區(qū)域之間進行高速直接內(nèi)存訪問傳輸,在兩個GPU的內(nèi)存之間存儲和加載數(shù)據(jù)。此外,Liqid Command Center旨在通過在工作負載完成時將GPU重新分配給各個節(jié)點來最大程度地減少空閑計算資源。
該公司表示:“ Liqid的可組合解決方案通過優(yōu)化GPU與CPU的比例并根據(jù)需要動態(tài)更改這些比例,從而降低了部署成本,從而顯著提高了高密度計算環(huán)境的總體擁有成本。” “可組合模型使GPU可以即時集成到計算節(jié)點中,以通過軟件定義的技術(shù)最大程度地利用這些強大的計算加速器。”
該系統(tǒng)因橙色硅谷與Liqid合作而無法使用。
“他們引入了我們的一些設(shè)備,并開始針對特定的用例進行測試,這些案例是針對最終用戶的……圍繞AI和GPU進行……,諸如將智能GPU部署在云中和邊緣的事情,” Puri說過。
他說,LQD8360在誕生之初就只是一個“很小的沙箱”,而它卻變得越來越大。“他們說的是,他們想要一個非常大的沙箱,以便他們可以調(diào)整一些AI算法,以查看可獲得的最大性能。我們告訴他們,“嘿,如果您正在尋找可以提供此功能的沙箱,我們將為您組成一個。”
Liqid和Dell致力于調(diào)整PowerEdge BIOS以支持多個GPU。
“考慮一下–在1-U披薩盒中,戴爾從來沒有理由在該BIOS中支持20個GPU,因為您不能放置多個GPU,對嗎?因此,我們與戴爾合作,并獲得了能夠識別數(shù)十個GPU的BIOS。然后,我們回到了Orange……與他們的AI工程師一起對諸如Tensor之類的CUDA之類的東西進行調(diào)整,對諸如ResNet之類的應(yīng)用程序進行調(diào)整,以了解我們可以從中獲得多少性能。”
調(diào)整一直在繼續(xù),Puri告訴我們,截止到本周,Orange將系統(tǒng)的性能再降低了5%。