許多研究聲稱人工智能一樣好(或更好)在解釋醫(yī)學圖像人類專家的質(zhì)量差,并且可以說是夸張的,有引發(fā)危險的“數(shù)以百萬計的患者的安全警告在研究的BMJ今天。
他們的發(fā)現(xiàn)引起了人們對支持許多研究的證據(jù)質(zhì)量的關(guān)注,并強調(diào)需要改進其設(shè)計和報告標準。
人工智能(AI)是一個創(chuàng)新且發(fā)展迅速的領(lǐng)域,具有改善患者護理和減輕負擔過重的醫(yī)療服務(wù)的潛力。深度學習是AI的一個分支,在醫(yī)學成像領(lǐng)域顯示出特殊的希望。
關(guān)于深度學習的已發(fā)表研究的數(shù)量正在增長,并且一些媒體頭條宣稱對醫(yī)生的卓越表現(xiàn)為快速實施提供了炒作。但是,尚未對這些標題背后的研究方法和產(chǎn)生偏差的風險進行詳細研究。
為了解決這個問題,一組研究人員回顧了過去10年中發(fā)表的研究結(jié)果,將深度學習算法在醫(yī)學成像中的表現(xiàn)與專家臨床醫(yī)生進行了比較。
他們發(fā)現(xiàn)只有兩項合格的隨機臨床試驗和81項非隨機研究。
在非隨機研究中,只有九項是前瞻性的(隨著時間的推移跟蹤和收集有關(guān)個人的信息),只有六項在“真實世界”的臨床環(huán)境中進行了測試。
比較組中人類專家的平均人數(shù)僅為4,而訪問原始數(shù)據(jù)和代碼(以允許對結(jié)果進行獨立審查)受到嚴重限制。
超過三分之二(81個中的58個)的研究被認為存在偏見的高風險(研究設(shè)計中可能影響結(jié)果的問題),并且對公認的報告標準的遵守通常很差。
四分之三(61項研究)指出,AI的表現(xiàn)至少可與(或優(yōu)于)臨床醫(yī)生相提并論,只有31項(38%)指出需要進一步的前瞻性研究或試驗。
研究人員指出了一些局限性,例如錯過研究的可能性以及對深度學習醫(yī)學影像研究的關(guān)注,因此結(jié)果可能不適用于其他類型的AI。
然而,他們說,目前,“存在許多與臨床醫(yī)生同等(或優(yōu)于)的說法,這在社會層面上存在著患者安全和人口健康的潛在風險。”
他們警告說,過分樂觀的語言“會使研究容易受到媒體和公眾的誤解,因此可能提供的不適當?shù)卣疹櫜灰欢ㄅc患者的最大利益相符”。
他們總結(jié)說:“通過確保我們不斷發(fā)展高質(zhì)量和透明報告的證據(jù)基礎(chǔ),可以最大程度地提高患者的安全性。”