麻省理工學院和IBM的一個小組開發(fā)了一種算法,該算法能夠準確地識別視頻中的動作,同時消耗以前所需的一小部分處理能力,從而有可能改變將AI應用于大量視頻的經(jīng)濟性。該方法改編了用于處理靜態(tài)圖像的AI方法,從而為它提供了經(jīng)過時間的粗略概念。
這項工作是朝著讓AI識別視頻中正在發(fā)生的事情邁出的一步,也許有助于馴服現(xiàn)在正在產(chǎn)生的大量信息。僅在YouTube上,2019年5月每分鐘上傳的視頻超過500小時。
公司希望使用AI自動生成視頻的詳細描述,從而使用戶可以發(fā)現(xiàn)未注釋的剪輯。而且,當然,他們會希望根據(jù)視頻中的內(nèi)容來出售廣告,也許當有人開始直播比賽時,他們就會立即展示網(wǎng)球課程的球場。Facebook和Google也希望使用AI來自動發(fā)現(xiàn)和過濾非法或惡意內(nèi)容,盡管這可能證明貓和老鼠正在進行游戲。在不顯著增加AI的碳足跡的情況下完成所有這一切將是一個挑戰(zhàn)。
科技公司喜歡炫耀自己對AI的使用,但仍然沒有太多用于分析視頻。YouTube,F(xiàn)acebook和TikTok使用機器學習算法對片段進行分類和推薦,但它們似乎主要依賴于與視頻相關的元數(shù)據(jù),例如描述,標簽以及上載時間和位置。所有人都在研究分析視頻內(nèi)容的方法,但是這些方法需要更多的計算機功能。
麻省理工學院的助理教授宋漢(Song Han)說:“視頻的理解是如此重要。”“但是計算量太高了。”
AI算法消耗的能量也在以驚人的速度增長。據(jù)一些估計,用于尖端AI實驗的計算機能力大約每三個半月翻一番。7月,艾倫人工智能研究所的研究人員呼吁研究人員發(fā)布其算法能效的詳細信息,以幫助解決這一迫在眉睫的環(huán)境問題。
隨著公司利用AI分析視頻,這一點尤其重要。近年來,圖像識別取得了巨大進步,這在很大程度上要歸功于深度學習(一種從復雜數(shù)據(jù)中提取含義的統(tǒng)計技術)。深度學習算法可以基于圖像中顯示的像素檢測對象。
但是深度學習不善于解釋視頻。除非將視頻幀與前后的視頻幀進行比較,否則分析視頻幀不會顯示正在發(fā)生的事情,例如,拿著門的人可能正在打開或關閉門。盡管Facebook研究人員在2015年開發(fā)了一種包含時變的深度學習版本,但這種方法相對笨拙。
根據(jù)Han的估計,訓練深度學習算法將視頻解釋為靜止圖像可能需要50倍的數(shù)據(jù)和8倍的處理能力。
韓與兩位同事共同開發(fā)了一種稱為“時間轉(zhuǎn)換模塊”的解決方案。用于視頻識別的常規(guī)深度學習算法可一次對多個視頻幀執(zhí)行3D操作(稱為卷積)。Han的方法使用更有效的2D算法,這種算法更常用于靜止圖像。時間移位模塊提供了一種方法,可以捕獲一幀中的像素與下一幀中的像素之間的關系,而無需執(zhí)行完整的3D操作。當2D算法依次處理每個幀時,同時合并來自相鄰幀的信息,它可以隨著時間的推移實現(xiàn)事物展開的感覺,從而可以檢測到所顯示的動作。