手机免费看国产欧美精品_久久精品国产9久久综合_免费无码一区二区三区视频_亚洲综合精品一二三区在线

您的位置:首頁>AI>

為機(jī)器學(xué)習(xí)啟用更公平的數(shù)據(jù)集群

CSE研究人員最近發(fā)表的研究可以使訓(xùn)練機(jī)器學(xué)習(xí)(ML)模型更公平,更快速。借助名為AlloX的工具,Mosharaf Chowdhury教授和美國石溪大學(xué)的一個(gè)團(tuán)隊(duì)開發(fā)了一種新方法,可以在使用多個(gè)不同類型的計(jì)算硬件(例如CPU,GPU和專用工具)的數(shù)據(jù)中心中合理地調(diào)度大量ML作業(yè)。加速器。隨著這些所謂的異構(gòu)集群逐漸成為規(guī)范,像AlloX這樣的公平調(diào)度系統(tǒng)將成為其高效運(yùn)營所必需的。

該項(xiàng)目是Chowdhury實(shí)驗(yàn)室的新步驟,該實(shí)驗(yàn)室最近發(fā)布了許多工具,旨在加快ML模型的訓(xùn)練和測試過程。他們過去的項(xiàng)目Tiresias和Salus加速了多種規(guī)模的GPU資源共享:既在單個(gè)GPU(Salus)內(nèi),又在群集中的多個(gè)GPU(Tiresias)之間。

但是AlloX解決了異構(gòu)集群,該集群帶來了一個(gè)新問題:不同的硬件最適合不同類型的計(jì)算任務(wù)。盡管對數(shù)據(jù)集群的不同工作的期望值總是不同的,但對于給定的工作,哪種硬件最合適也有所不同。

多種不同類型的硬件可能能夠運(yùn)行一個(gè)給定的模型,但是根據(jù)其計(jì)算特性,每個(gè)模型可以具有截然不同的速度。如果需要大量的順序執(zhí)行,那么GPU不太適合,但是如果它嚴(yán)重依賴矩陣乘法,則CPU不能很好地工作。隨著新加速器的不斷開發(fā),不同的通用操作總是在尋找更好的選擇來快速執(zhí)行。

Chowdhury說:“每個(gè)工作負(fù)載都有其獨(dú)特的特性,可以使獨(dú)特的加速器發(fā)光。這就是為什么架構(gòu)研究人員正在建造這么多新的加速器的原因。”

這種不匹配的硬件提出了數(shù)據(jù)集群公平性問題的新方面。在工作量不斷增加的情況下,調(diào)度程序不僅必須尋找最佳的平均運(yùn)行時(shí)間以保持中心運(yùn)行,而且還必須尋找不會(huì)隨意拖延某些工作以追求整體性能的計(jì)劃。按照Chowdhury的說法,計(jì)算能力的分布導(dǎo)致不同個(gè)人用戶的性能結(jié)果差異很大。

他說:“如果集群不公平,那么某些人將受到太多懲罰,他們的計(jì)算時(shí)間將任意增加。”

在具有多種類型的計(jì)算硬件的異構(gòu)集群的情況下,解決每個(gè)作業(yè)的最佳需求所涉及的數(shù)學(xué)變得越來越復(fù)雜。

在他們的解決方案中,研究人員將問題重新定義為兩部分匹配問題,其中圖的頂點(diǎn)可以分為兩個(gè)獨(dú)立的集合,以便每個(gè)邊將一個(gè)頂點(diǎn)連接到另一個(gè)頂點(diǎn)。兩組一方面成為工作,另一方面成為可用計(jì)算資源的總列表。他們在Kubernetes(一個(gè)廣泛使用的集群管理器)上實(shí)現(xiàn)了此調(diào)度程序,該集群管理器具有一個(gè)小型CPU-GPU混合集群和大規(guī)模仿真。

他們的發(fā)現(xiàn)表明,當(dāng)系統(tǒng)負(fù)載較高時(shí),AlloX可以將平均作業(yè)完成時(shí)間減少多達(dá)95%,同時(shí)仍可提供公平性并防止作業(yè)匱乏。這種性能與以前專注于平均作業(yè)運(yùn)行時(shí)間的實(shí)現(xiàn)相匹配或有所改進(jìn),而沒有提供公平性。

喬杜里(Chowdhury)使用小組先前的系統(tǒng)Tiresias解決了平均運(yùn)行時(shí)間問題。該調(diào)度程序的設(shè)計(jì)目的是最大程度地縮短平均作業(yè)完成時(shí)間,同時(shí)考慮到各種限制因素,但并未考慮公平性問題。但是研究人員在他們關(guān)于AlloX的論文中表明,即使解決了公平的資源使用問題,也可以實(shí)現(xiàn)這種快速平均。

Chowdhury解釋說:“我們證明您可以做到公平,您的平均數(shù)仍將保持接近優(yōu)化的平均數(shù)。”“它正在集群中進(jìn)行資源的重新分配。平均工作完成時(shí)間將得到改善,因?yàn)樵馐茏顕?yán)重影響的人將獲得顯著改善。”

AlloX與Salus等其他最近的項(xiàng)目(最近在MLSys會(huì)議上發(fā)表)一起,是Chowdhury小組對繁忙的AI資源管理領(lǐng)域的最新貢獻(xiàn)之一。實(shí)驗(yàn)室在此領(lǐng)域的最終目標(biāo)是優(yōu)化模型超參數(shù)調(diào)整,訓(xùn)練,測試和推理過程的每個(gè)步驟。

Chowdhury說:“ AI或ML的整個(gè)生命周期,它們必須經(jīng)歷的不同階段-我們想從資源管理的角度知道如何最好地管理每個(gè)步驟。”

在2020年EuroSys會(huì)議上,論文“ AlloX:混合集群中的計(jì)算分配”中介紹了AlloX。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!