图中有四个状态s1、s2、s3、s4，策略如箭头所示，对应reward是r1、r2、r3、r4，计算从不同状态出发得到的return

用 $v_i$ 表示从不同状态 $s_i$ 出发得到的return：

\left\{\begin{aligned} v_1 & =r_1+\gamma r_2+\gamma^2 r_3+\ldots \\ {v_2} & ={r_2}+{\gamma r_3}+{\gamma^2 r_4}+\ldots \\ {v_3} & =r_3+\gamma r_4+\gamma^2 r_1+\ldots \\ v_4 & =r_4+\gamma r_1+\gamma^2 r_2+\ldots \end{aligned}\right.

既可以表示成：

\begin{aligned} & v_1=r_1+\gamma\left(r_2+\gamma r_3+\ldots\right)=r_1+\gamma v_2 \\ & v_2=r_2+\gamma\left(r_3+\gamma r_4+\ldots\right)=r_2+\gamma v_3 \\ & v_3=r_3+\gamma\left(r_4+\gamma r_1+\ldots\right)=r_3+\gamma v_4 \\ & v_4=r_4+\gamma\left(r_1+\gamma r_2+\ldots\right)=r_4+\gamma v_1 \end{aligned}

矩阵形式：

\underbrace{\left[\begin{array}{c} v_1 \\ v_2 \\ v_3 \\ v_4 \end{array}\right]}_{\mathbf{v}}=\left[\begin{array}{c} r_1 \\ r_2 \\ r_3 \\ r_4 \end{array}\right]+\left[\begin{array}{l} \gamma v_2 \\ \gamma v_3 \\ \gamma v_4 \\ \gamma v_1 \end{array}\right]=\underbrace{\left[\begin{array}{c} r_1 \\ r_2 \\ r_3 \\ r_4 \end{array}\right]}_{\mathbf{r}}+\gamma \underbrace{\left[\begin{array}{cccc} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{array}\right]}_{\mathbf{P}} \underbrace{\left[\begin{array}{l} v_1 \\ v_2 \\ v_3 \\ v_4 \end{array}\right]}_{\mathbf{v}}

可以表示成：

\mathbf{v}=\mathbf{r}+\gamma \mathbf{P} \mathbf{v}

一个状态的value实际上依赖于其他状态的value

state value定义

S_t \xrightarrow{A_t} R_{t+1}, S_{t+1}

这些跳跃由probability distribution决定

$S_t \rightarrow A_t$
- $S_t$ 采取的动作由策略决定 $\pi\left(A_t=a \mid S_t=s\right)$
$S_t, A_t \rightarrow R_{t+1}$
- reward probability决定， $p\left(R_{t+1}=r \mid S_t=s, A_t=a\right)$
$S_t, A_t \rightarrow S_{t+1}$
- state transition probability决定， $p\left(S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right)$

S_t \xrightarrow{A_t} R_{t+1}, S_{t+1} \xrightarrow{A_{t+1}} R_{t+2}, S_{t+2} \xrightarrow{A_{t+2}} R_{t+3}, \ldots

对其求discounted return：

G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots

$R_{t+2}、R_{t+3}$ 是随机变量，所以 $G_t$ 也是随机变量

state value是 $G_t$ 的期望值，即平均值：

v_\pi(s)=\mathbb{E}\left[G_t \mid S_t=s\right]

return针对单个trajectory求出的；state value针对多个trajectory得到的return，再取其平均值

计算状态 $s_1$ 在不同策略下的state value：

\begin{aligned} & v_{\pi_1}\left(s_1\right)=0+\gamma 1+\gamma^2 1+\cdots=\gamma\left(1+\gamma+\gamma^2+\ldots\right)=\frac{\gamma}{1-\gamma} \\ & v_{\pi_2}\left(s_1\right)=-1+\gamma 1+\gamma^2 1+\cdots=-1+\gamma\left(1+\gamma+\gamma^2+\ldots\right)=-1+\frac{\gamma}{1-\gamma} \\ & v_{\pi_3}\left(s_1\right)=0.5\left(-1+\frac{\gamma}{1-\gamma}\right)+0.5\left(\frac{\gamma}{1-\gamma}\right)=-0.5+\frac{\gamma}{1-\gamma} \end{aligned}

$v_{\pi_3}$ 有两条trajectory，取平均方法是乘上各自的reward probability

目录