`
jeje2011
  • 浏览: 4342 次
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

马尔可夫决策过程

 
阅读更多

定义



 

一个很简单的只有3个状态和2个动作的MDP例子。



一个马尔可夫决策过程是一个4 - 元组 ,其中

                      S是状态的有限集合,

                      A是动作的有限集合(或者,As是处于状态s下可用的一组动作的有限集合),

                     表示 t时刻的动作 a 将导致马尔可夫过程由状态 s 在t+1 时刻转变到状态 s' 的概率 。

                      Ra(s,s') 表示以概率Pa(s,s')从状态 s 转变到状态 s' 后收到的即时奖励(或预计即时奖励)。

(马尔可夫决策过程理论实际上并不需要 S 或 A 这两个集合是有限的,但下面的基本算法假定它们是有限的。)

转载自http://blog.csdn.net/foxeatapple/article/details/6008686

 

  • 大小: 50 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics