隨著人工智能的興起,毫無疑問,它將以前所未有的速度轉(zhuǎn)變業(yè)務(wù)和組織。但是一個不容忽視的事實是,隨著AI的興起,數(shù)據(jù)量也隨著其復(fù)雜性的增加而增長。其中,AI和ML是可以幫助數(shù)據(jù)科學(xué)家將數(shù)據(jù)過濾為相關(guān)價值的重要技術(shù)。
從培訓(xùn)模型到見解輸入,數(shù)據(jù)都位于AI解決方案的心臟和靈魂中。即使對于企業(yè)AI,數(shù)據(jù)收集也是一個連續(xù)的過程,迫使AI項目必須按照現(xiàn)代化的數(shù)據(jù)收集和管理策略進行操作。因此,組織和企業(yè)需要更多地關(guān)注AI數(shù)據(jù)基礎(chǔ)架構(gòu),以使其數(shù)據(jù)驅(qū)動和支持AI的流程平穩(wěn),快速地運行。
以下是適當?shù)腁I數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)的一些重要屬性。
基礎(chǔ)設(shè)施應(yīng)具有可擴展的元數(shù)據(jù),其中元數(shù)據(jù)是指“數(shù)據(jù)換數(shù)據(jù)”。元數(shù)據(jù)有兩種類型-一種是系統(tǒng)生成的,另一種是用戶定義的。元數(shù)據(jù)中使用的數(shù)據(jù)標簽應(yīng)反映一些重要的提法,包括項目名稱,數(shù)據(jù)源,數(shù)據(jù)是否包含個人身份信息或從數(shù)據(jù)本身派生的幾乎無限多種特征。
而且,高效的數(shù)據(jù)基礎(chǔ)架構(gòu)應(yīng)支持系統(tǒng)生成的元數(shù)據(jù),該元數(shù)據(jù)來自不同的地方-對象存儲,文件系統(tǒng),云存儲庫,僅舉幾例。它還應(yīng)支持用戶定義的元數(shù)據(jù)。此外,AI數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)應(yīng)具有提供機制的能力,這些機制可使這些標簽可供更高級別的ML框架訪問,同時又不致于強調(diào)底層存儲技術(shù)。
考慮到標簽是此過程中的重要功能,必須確認可以減少與標簽數(shù)據(jù)相關(guān)的工作量并節(jié)省時間的解決方案。理想情況下,有效的數(shù)據(jù)基礎(chǔ)架構(gòu)應(yīng)支持自動標記,這意味著從現(xiàn)有元數(shù)據(jù)中提取標記。它還可以使用深度檢查策略,通過各種工具直接從原始數(shù)據(jù)文件中提取文本和元數(shù)據(jù)。
但是,數(shù)據(jù)提取工具可以是預(yù)先訓(xùn)練的模型。它可能是一個程序,用于對圖像進行分類或從不同的通信樣式中解釋客戶的情緒。
此外,由于數(shù)據(jù)以不同的形式出現(xiàn),因此AI數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)應(yīng)足夠靈活以允許多協(xié)議數(shù)據(jù)訪問。這種可訪問性將大大抑制昂貴且效率低下的數(shù)據(jù)重復(fù),并增加數(shù)據(jù)管道的執(zhí)行。
此外,為了協(xié)助各種協(xié)議,AI數(shù)據(jù)基礎(chǔ)設(shè)施應(yīng)支持自動分層和多溫度存儲,這意味著數(shù)據(jù)屬于活動項目時可以駐留在熱存儲層中,而轉(zhuǎn)移到不那么頻繁時可以在較冷的存儲層中傳輸訪問的項目。此外,對于高效,有效的支持AI的數(shù)據(jù)基礎(chǔ)架構(gòu),規(guī)模和性能也被視為至關(guān)重要的方面。
因此,從數(shù)據(jù)管道,數(shù)據(jù)攝取和邊緣分析,到核心數(shù)據(jù)中心中的數(shù)據(jù)準備和培訓(xùn),再到將其存儲在適當?shù)奈恢?,設(shè)計適用于AI的數(shù)據(jù)基礎(chǔ)架構(gòu)都需要一種整體方法。了解性能要求和數(shù)據(jù)服務(wù)需求對于開發(fā)AI數(shù)據(jù)基礎(chǔ)架構(gòu)至關(guān)重要。