從材料科學和地球系統(tǒng)建模到量子信息科學和網絡安全,許多領域的專家進行模擬并進行實驗,以收集科學進步所需的大量數(shù)據。但是從這些數(shù)據中收集有用的見識可能是一個挑戰(zhàn),特別是當多個復雜變量影響研究結果時。
為了更好地分析所謂的多元數(shù)據,能源部橡樹嶺國家實驗室的研究人員開發(fā)了一種開源的,可定制的可視化分析系統(tǒng),稱為CrossVis。與傾向于集中于數(shù)值數(shù)據并提供結果的單一視覺表示的類似工具不同,CrossVis會處理基于數(shù)值,分類和基于圖像的數(shù)據,同時提供這些數(shù)據和其他數(shù)據類型的多個動態(tài),協(xié)調視圖。
ORNL研究人員John Goodall,Junghoon Chae,Artem Trofimov和ORNL視覺信息科學與技術進步實驗室(VISTA)主任Chad Steed使CrossVis 在線可用,并發(fā)布了該系統(tǒng)在圖形和視覺計算方面的獨特功能。
Steed說:“ CrossVis是一站式商店,用于分析許多不同類型的數(shù)據,它揭示了不僅僅是兩個變量之間的關系。”
該工具的主視圖由平行坐標圖或PCP組成,它是一種流行的信息可視化技術。PCP將數(shù)據表的列顯示為垂直軸,將其行顯示為折線,折線是連接到軸的相互依賴的線段的鏈。在這種情況下,CrossVis界面超出了傳統(tǒng)PCP的范圍,以包含非自然數(shù)據和時間或基于時間的非數(shù)值數(shù)據。
此外,CrossVis還提供了散點圖,圖像窗格和其他補充主視圖的選項,以幫助用戶識別異構,多變量數(shù)據中的關鍵模式和有趣的異常情況。為了縮小焦點,用戶還可以選擇在所有視圖中同時突出顯示變量,生成新數(shù)據或輸入參數(shù)以過濾現(xiàn)有數(shù)據。
“以前,科學家必須使用單獨的程序來分析圖像數(shù)據,數(shù)值數(shù)據和分類數(shù)據,然后手動比較結果,” Steed說。“ CrossVis使他們可以在一個框架內完成所有這些步驟。”
該團隊將系統(tǒng)應用到ORNL納米相材料科學中心(CNMS)的研究人員領導的基因工程項目中,利用該系統(tǒng)分析分類和圖像數(shù)據的能力,該項目涉及驗證來自人工神經網絡或人工神經網絡的結果。掃描硅藻的電子顯微鏡圖像。硅藻是藻類的一種,會產生堅固的二氧化硅,可用于工業(yè)目的,包括藥物輸送和水過濾。
具體而言,CNMS小組對硅藻上的孔進行了表征,以區(qū)分這些生物的未經修飾的或野生的硅藻與基因修飾的形式。最終,這些見解可以幫助科學家優(yōu)化和模擬硅藻生物礦化作用,這是這些生物體用來生產二氧化硅的過程。
該團隊使用CrossVis檢查了硅藻參數(shù)之間的關系,該工具的許多視圖揭示了這兩種類別之間的細微差異。例如,研究人員確定,野生硅藻的毛孔要比改良的硅藻小,而修飾的對應硅藻的毛孔要小得多。
Steed說:“人工神經網絡自動得出圖像分類,將毛孔識別為分離兩種類型的硅藻的重要特征。” “但是,這些結果并不能清楚地說明為什么該算法選擇采用這種方法對毛孔進行分類,因此CrossVis使CNMS科學家能夠解釋和驗證他們的發(fā)現(xiàn)。”
“沒有CrossVis,我們不會基于這些關鍵參數(shù)(即平均面積和毛孔密度)徹底了解如何區(qū)分野生和改良的硅藻圖像,”負責CNMS項目的ORNL研究人員Artem Trofimov補充說。
為了在更大范圍內證明CrossVis的價值,Stee和他的合作者還與ORNL領導的團隊合作,開發(fā)了能源百億分之一地球系統(tǒng)模型以幫助驗證氣候建模技術。此外,該團隊使用CrossVis驗證了美國國家海洋與大氣管理局(National Oceanic and Atmospheric Administration)的大西洋颶風數(shù)據庫中的數(shù)據,該數(shù)據庫包含21列和超過50,000行的有關颶風的位置,大小和其他特征的統(tǒng)計信息。
Steed說:“這是一個很好的用例,因為它是一個更大的數(shù)據集,具有更多變量。” “我們發(fā)現(xiàn)的模式可以確認已知的颶風條件,這表明CrossVis可以在更大范圍內有效地驗證實際結果。”
展望未來,CrossVis團隊旨在進一步改善這一資源。例如,研究人員計劃擴大CrossVis的規(guī)模,使其在高性能計算系統(tǒng)上運行。借助ORNL的Summit之類的超級計算機的處理能力,CrossVis可以更有效地完成復雜的計算。
通過結合自動機器學習技術,團隊計劃更積極地捕獲用戶與數(shù)據的交互。科學家將標記數(shù)據樣本,然后內置的人工智能算法將識別,標記和編譯數(shù)據看不見的部分中的相似模式,從而使用戶能夠快速分析整個數(shù)據集并潛在地進行意外發(fā)現(xiàn)。
Steed說:“如果您嘗試手動整理颶風數(shù)據集或氣候模擬數(shù)據之類的數(shù)據,則將需要一生。” “這種人機合作將領域專家的創(chuàng)造力和直覺與計算機的數(shù)據處理能力結合在一起,是進行更有效的數(shù)據分析的關鍵。”