并非所有數(shù)據(jù)都是平等的。但是任何一條數(shù)據(jù)可能包含多少信息呢?這個問題對于醫(yī)學測試、設計科學實驗,甚至對于人類日常學習和思考都至關重要。麻省理工學院的研究人員開發(fā)了一種新的方法來解決這個問題,在醫(yī)學、科學發(fā)現(xiàn)、認知科學和人工智能方面開辟了新的應用。
從理論上講,已故麻省理工學院名譽教授克勞德·香農在1948年發(fā)表的論文“通信的數(shù)學理論”明確地回答了這個問題。香農的突破性成果之一是熵的概念,它使我們能夠量化任何隨機對象中固有的信息量,包括模擬觀察數(shù)據(jù)的隨機變量。香農的成果奠定了信息論和現(xiàn)代電信的基礎。熵的概念也被證明是計算機科學和機器學習的核心。
估計熵的挑戰(zhàn)
不幸的是,香農公式的使用很快就會變得難以計算。它需要精確計算數(shù)據(jù)的概率,這反過來又需要計算數(shù)據(jù)在概率模型下可能出現(xiàn)的所有可能方式。如果數(shù)據(jù)生成過程非常簡單——例如,單次拋硬幣或擲骰子——那么計算熵就很簡單了。但是考慮醫(yī)學檢測的問題,陽性檢測結果是數(shù)百個相互作用變量的結果,這些變量都是未知的。只有10個未知數(shù),數(shù)據(jù)已經有1000種可能的解釋。有幾百個,可能的解釋比已知宇宙中的原子還要多,這使得計算熵完全是一個難以解決的問題。
麻省理工學院的研究人員開發(fā)了一種新方法,通過使用概率推理來估計許多信息量(例如香農熵)的良好近似值。這項工作出現(xiàn)在作者FerasSaad博士在AISTATS2022上發(fā)表的一篇論文中。電氣工程和計算機科學的候選人;Marco-CusumanoTowner,博士;和VikashMansinghka博士,腦與認知科學系的首席研究科學家。關鍵的見解是,而不是枚舉所有解釋,而是使用概率推理算法首先推斷哪些解釋是可能的,然后使用這些可能的解釋來構建高質量的熵估計。該論文表明,這種基于推理的方法可以比以前的方法更快、更準確。
在概率模型中估計熵和信息從根本上說是困難的,因為它通常需要解決高維積分問題。許多以前的工作已經為某些特殊情況開發(fā)了這些量的估計器,但是通過推理的熵的新估計器(EEVI)提供了第一種方法,可以在廣泛的信息理論量上提供明確的上限和下限。上下界意味著雖然我們不知道真正的熵,但我們可以得到一個小于它的數(shù)和一個大于它的數(shù)。
“由于三個原因,我們的方法提供的熵的上限和下限特別有用,”Saad說。“首先,上限和下限之間的差異給出了我們應該對估計有多大信心的定量感覺。其次,通過使用更多的計算工作,我們可以將兩個界限之間的差異推向零,這“擠壓”了真實的“第三,我們可以組合這些界限來形成對許多其他數(shù)量的估計,這些數(shù)量告訴我們模型中不同變量之間的信息量。”
使用數(shù)據(jù)驅動的專家系統(tǒng)解決基本問題
Saad說,他對這種方法在機器輔助醫(yī)療診斷等領域查詢概率模型的可能性感到最興奮。他說,EEVI方法的一個目標是能夠使用豐富的生成模型來解決新的查詢,這些模型已經由醫(yī)學領域的專家開發(fā),用于肝病和糖尿病等疾病。例如,假設我們有一個患者具有一組觀察到的屬性(身高、體重、年齡等)和觀察到的癥狀(惡心、血壓等)。鑒于這些屬性和癥狀,EEVI可用于幫助確定醫(yī)生應針對癥狀進行哪些醫(yī)學檢查,以最大限度地了解特定肝病(如肝硬化或原發(fā)性膽汁性膽管炎)是否存在。
對于胰島素診斷,作者展示了如何使用計算最佳時間的方法來進行血糖測量,從而最大限度地了解患者的胰島素敏感性信息,并給出專家構建的胰島素代謝概率模型和患者的個性化膳食和藥物時間表。隨著血糖監(jiān)測等常規(guī)醫(yī)療跟蹤從醫(yī)生辦公室轉向可穿戴設備,如果可以提前準確估計數(shù)據(jù)的價值,那么改進數(shù)據(jù)采集的機會就會更多。
該論文的資深作者VikashMansinghka補充說:“我們已經證明,概率推理算法可用于估計AI工程師通常認為難以計算的信息度量的嚴格界限。這開辟了許多新的應用。它還表明推理可能比我們想象的更具有計算基礎。它還有助于解釋人類大腦如何能夠如此普遍地估計信息的價值,作為日常認知的核心組成部分,并幫助我們設計具有這些能力。”
在AISTATS2022上發(fā)表了論文“通過概率模型中的推理來估計熵和信息”。