手机免费看国产欧美精品_久久精品国产9久久综合_免费无码一区二区三区视频_亚洲综合精品一二三区在线

您的位置:首頁>AI>

什么是人工智能機制與深度強化學習和利用實例

強化學習(RL)是一種機器學習方法,它通過系統(tǒng)自身的反復試驗實現(xiàn)最佳的系統(tǒng)控制。

強化學習的概念早在AI興起之前就已經(jīng)存在。強化學習的原型已在1950年代作為“最優(yōu)控制”的研究而存在,它可以實現(xiàn)機器的自主控制。1990年前后,他在加拿大阿爾伯塔大學的Richard Sutton教授的帶領下進行了積極的研究,他也被稱為強化學習的創(chuàng)造者。

“深度強化學習”為已存在很長時間的強化學習帶來了驚人的技術進步。將深度學習應用于常規(guī)強化學習的深度強化學習的出現(xiàn),觸發(fā)了由強化學習在社會中推動的AI的實現(xiàn)。

為了了解強化學習和深度強化學習,我們將首先概述諸如機器學習和深度學習之類的技術。

監(jiān)督學習是一種學習方法,其中向計算機提供學習數(shù)據(jù),其中“輸入”和“正確輸出”鏈接在一起,并且是一種算法,當接收到某個輸入時會返回正確的輸出。

例如,一種預測房價的算法。在這種情況下,將某個房屋的大小和位置,到車站的距離等鏈接為“輸入”,并將房屋的價格鏈接為“正確的輸出”。如果您輸入房屋的周圍條件,這將創(chuàng)建一種算法,該算法將猜測合理的房價。

另一方面,在無監(jiān)督學習中,僅將“輸入”數(shù)據(jù)提供給計算機,并且計算機獨立地提取數(shù)據(jù)中固有的模式。

一個示例是一種算法,該算法根據(jù)訪問超級市場的??客戶的購買數(shù)據(jù)將客戶分為幾類。輸入購買數(shù)據(jù)(例如購買的產(chǎn)品和商店訪問時間),然后計算機獨立提取類似的購買行為并輸出客戶組。該輸出不是人類預定的。

②強化學習

在強化學習中,計算機學習特定“環(huán)境”中的動作以最大化為此目的設置的“獎勵(分數(shù))”。

典型示例是機器人步行控制。在這種情況下,機器人會獲得“可步行距離”的獎勵。然后,機器人將嘗試通過不同的方式行走,以最大化行走距離。通過這樣做,構造了具有長步行距離的算法。

免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!