MDP（马尔可夫决策过程）

符号说明

$\mathcal{S}$	有限的状态集合
$\mathcal{A}$	有限的动作集合
$\mathcal{P}$	马尔科夫转移矩阵
$\mathcal{R}$	**奖励函数，$\mathcal{R}=\mathbb{E}[R_{t+1}
$\mathcal{\gamma}$	折扣因子

MP（马尔科夫过程）

马尔可夫性质

如果一个过程具有如下性质，则该过程具有Markov Property： $$ \mathbb{P} [S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_t,S_{t-1},..,S_1] $$ 也就是说，当前状态只与前一个状态有关，而与历史的状态无关，但从递推关系上，历史的状态又通过递推形式传递到当前状态，隐含了历史信息。

马尔可夫转移矩阵

马尔可夫过程中的一个状态转换成另一个状态的概率表示为： $$ \mathcal{P}{SS'}=\mathbb{P}[S{t+1}=S'|S_t=S] $$ 那么马尔科夫转移矩阵则表示所有状态之间的转换关系： $$ \mathcal{P}=\begin{pmatrix} \mathcal{P}{11} & \cdots &\mathcal{P}{1n}\ \vdots&\ddots&\vdots\ \mathcal{P}{n1}&\cdots&\mathcal{P}{nn} \end{pmatrix} $$ 马尔可夫过程是一个$(\mathcal{S},\mathcal{P})$的元组

MRP（马尔科夫奖励过程）

马尔可夫奖励过程是一个$(\mathcal{S},\mathcal{P},\mathcal{R},\mathcal{\gamma})$,MRP的奖励依赖于当前的state，而不同于MDP奖励是依赖于当前状态和动作选择。

注意事项与一些说明：

奖励是延迟性的，也就是只有过了当前状态，环境才会反馈agent奖励
回报：在MP过程中我们寻求的最大期望回报，记为$G_t$。引入了折扣因子的收益总和： $$ G_t = R_{t+1}+\gamma R_{t+2}+\cdots = \sum_{k=0}^{\infty}\gamma^k R_{t+k+1} $$
分幕式和持续式任务的区别:分幕（episodes）式的任务有很多子序列，比如一个游戏中的回合一样，会在有限时刻终止，上述回报会在某个时刻终止，而不会无穷远停止；而持续性任务一般只有一个序列，而且序列是无穷的，例如机器人的长期运行。
价值函数：价值函数是状态（状态-动作）的函数，评价当前状态的好坏，同时也是回报的期望收益。在MRP中， $$ \begin{align} v(s)&=\mathbb{E}[G_t|S_t=s]\ &=\mathbb{E}[ R_{t+1}+\gamma R_{t+2}+\cdots |S_t=s]\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s]\ & = \mathbb{E}[R_{t+1}+\gamma v(S_{t+1})|S_t=s)] \end{align} $$ 最终推导出来的是MRP的贝尔曼方程：

$$ v=R+\gamma \mathcal{P} v $$