加载中...

强化学习概述

发表于2023-08-07|更新于2023-12-17|TechniqueReinforcementLearning

|字数总计:507|阅读时长:2分钟|阅读量:

1. 定义

通过从交互中学习来实现目标的计算方法：

强化学习概览图

强化学习主要包括三个方面：

感知：在某种程度上感知环境的状态
行动：可以采取行动来影响状态或者达到目标
目标：随着时间的推移最大化累积奖励

2. 交互

强化学习与环境交互过程如下图：

强化学习交互过程

3. 系统要素

历史（History）：是观察、行动和奖励的序列。即一直到时间 $t$ 为止的所有可观测变量：

$H_t = O_1,R_1,A_1,O_2,R_2,A_2,\cdots,O_{t-1},R_{t-1},A_{t-1},O_t,R_t$
状态（State）：一种用于确定接下来会发生的事情的信息。状态是关于历史的函数：

$S_t = f(H_t)$
策略（Policy）：是学习智能体在特定时间的行为方式，是从状态到行动的映射。
- 确实性策略：
  
  $a = \pi(s)$
- 随机策略：
  
  $\pi(a | s) = P(A_t = a | S_t = s)$
奖励（Reward）：定义强化学习目标的标量，能立即感知到什么是「好」的。
价值函数（Value Function）：状态价值是一个标量，用于定义对于长期来说，什么是「好」的。价值函数是对于未来累积奖励的预测：

$v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots | S_t = s \right]$
环境模型（Model）：用于模拟环境的行为。
- 预测下一个状态：
  
  $\mathcal{P}_{ss^{'}}^a = \mathbb{P}[S_{t+1} = s^{'} | S_t = s, A_t = a]$
- 预测下一个奖励：
  
  $\mathcal{R}_{s}^a = \mathbb{E}[R_{t+1} | S_t = s, A_t = a]$

文章作者: hotarugali

文章链接: https://hotarugali.github.io/2023/08/07/Technique/ReinforcementLearning/强化学习概述/强化学习概述/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自お前はどこまで見えている！

Technique ReinforcementLearning

打赏

微信
支付宝

相关推荐

浏览器实用插件集合

C++内置宏定义

C++相关资料汇总

C++语言打开文件模式

Deepin15.11下安装CodeBlocks17.12

评论

WalineTwikoo

✨ 網站已更新最新版本 👉 點擊刷新

数据库加载中