欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习1——策略,价值函数,模型

发布时间:2024/10/14 编程问答 103 豆豆
生活随笔 收集整理的这篇文章主要介绍了 强化学习1——策略,价值函数,模型 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

  • 强化学习——概述
    • 组成
      • 策略:行为函数
      • 价值函数:状态和行为的得分
      • 模型:整个世界的表达

强化学习——概述

组成

策略:行为函数

​ 分为两种:

​ 概率型策略:从策略π\piπ中,按照概率π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(as)=P(at=ast=s)采样一个a。

​ 确定型策略:从策略π\piπ中,选择一个最大概率的策略a∗=arg⁡max⁡aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a=argmaxaπ(as)

价值函数:状态和行为的得分

​ 已知π\piπ的时候能得到多少奖励(期望平均值)

​ 分为两种:

​ 状态价值函数:衡量一个状态的价值(其实是一个状态采取所有行为后的一个价值的期望值)

vπ(s)≐Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s],for all s∈Sv_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right], \text { for all } s \in \mathcal{S}vπ(s)Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s], for all sS

​ Q-函数:衡量一个状态采取一个动作后的价值(是强化学习的一个目标,最高的Q-函数值对应的a就是最有策略采取的动作)

qπ(s,a)≐Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]qπ(s,a)Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]

模型:整个世界的表达

​ 预测下一个环境(世界,状态)

​ 两部分组成:

​ 1 状态s采取了一个策略a,有多少概率到达s′s^{\prime}s

​ 2 状态s采取了一个策略a,能得到多大的奖励
Predict the next state: Pss′a=P[St+1=s′∣St=s,At=a]Predict the next reward: Rsa=E[Rt+1∣St=s,At=a]\begin{aligned} &\text { Predict the next state: } \mathcal{P}_{s s^{\prime}}^{a}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right]\\ &\text { Predict the next reward: } \mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right] \end{aligned}  Predict the next state: Pssa=P[St+1=sSt=s,At=a] Predict the next reward: Rsa=E[Rt+1St=s,At=a]

总结

以上是生活随笔为你收集整理的强化学习1——策略,价值函数,模型的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。