强化学习方法及应用研究

时间:2022-07-25 17:10:02 公文范文 来源:网友投稿

下面是小编为大家整理的强化学习方法及应用研究,供大家参考。

强化学习方法及应用研究

 

 留性督学Lear

 大家(Hid也就马尔是 M还是致下的状马尔 1. \(2. \(3. \(4. \(5. \(强化括三一个赏函(1)策策略在人工智能性、反应性、机器学习的学习(Superviserning)三大类家应该还记得dden Mark就是指系统的尔可夫决策过MDP 考虑了动是举下棋的例下个状态 s’)状态和动作,尔可夫决策过S\) 表示状态A\) 表示动作P_{s,a}^{s"}\)R_{s,a}\) 表示\gamma\) 是化学习的主要三个方面:强个完整的强化函数(Reward 策略 略也称决策函能研究领域,A社会性、主的分类方法有ed

 Learning。

 得马尔科夫链ov Model,的下个状态只过程(Markov动作,即系统例子,当我们我们是不能即 s’是根据过程是基于马态集 (states)作集 (Action) 表示状态 示状态 s 下是衰减因子。要研究内容包强化学习的理化学习系统除 Function)、函数,是强化Agent 是指驻主动性等特征有很多种,根据g)、无监督学链(Markov CHMM)。它与当前状态信v Decision 统下个状态不在某个局面能确定的,但据 s 和 a 随机尔可夫过程; ); s 下采取动作下采取动作 a

 包 理论研究、算法除了 Agent 和值函数(Valu化学习的核心部驻留在某一环的计算实体据学习过程的学习(UnsupervChain),了解它们具有的一信息有关,而Process, M不仅和当前的(状态 s)走是他的选择机生成的。

 理论的随机动作 a 之后转 获得的奖励法研究及其应和环境,还有ue

 Function部分,规定了环境下,能持。

 的反馈情况,vised

 Learn解机器学习的个共同性质就而与更早之前MDP)也具有的状态有关,走了一步(动只和 s 和 a 有动态系统的决转移到 s" 状态励; 应用研究。有四个关键的n)以及环境模了在每个可能持续自主地发学习方法的ing)、强化学习的也都知道隐就是马尔可夫前的状态无关马尔可夫性,也和当前采作 a),这时有关,而不用决策过程,其态的概率; 的组成要素:模型(Environm能状态,Age发挥作用,具的研究可以分习(Reinforce隐马尔可夫模夫性(无后效关。

 ,与上面不同采取的动作有时对手的选择用考虑更早之其分五个部分策略(Policy)ment Model)。ent 应该采取备驻分为监ment 模型效性),同的有关。(导之前分:

 、奖。

 取的动

 作集,策Π ,*π ,(2)奖

 奖改策来表在与

 (3)值奖赏或状指 A( V s Q 函

 (4)环环境型将可能

 2.2 处的错学和瞬 集合。描述针策略: S->A 是称为允许策称为最优策奖赏函数 奖赏函数决定策略的基础。表示,数值越与环境交互过值函数

 赏函数是对 A状态-动作对)的Agent 在状态)ts 。

 函数是另一种环境模型

 境模型是对外将会给出转移能的状态进行给出了强化的环境由环境学习所获得的瞬时奖赏之间针对状态集 S是一个从状态到策略集合,π策略。

 定了 Agent 在奖赏信号是越大表示奖的过程中最终得Agent 采用动的好坏,故值态ts 执行动作种值函数,它外界环境状态移后的环境状行规划。

 学习四个关键境模型来定义的瞬时奖赏来间需要构造一中的每一个状到动作的映射π∈ Π 在允许与环境交互的是对 Agent 产的越多,数值得到的总的奖作的即时评价值函数又称评作ta ( a t ∈它记录“状态态的抽象表示状态和奖励信键要素之间的义,由于模型中来选择策略。考一个值函数用状态 s,Age射。关于任意许策略集合中的过程中将要产生的动作的值越小表示奖赏值达到最大价,而值函数评价函数。在A )及后续态-动作对”的,Agent 在给号。利用环境图

 的关系,四要中 P 函数和考虑到环境模于策略的选择nt 应完成动意状态所能选中找出使问题要获取的奖励的好坏所作的奖的越少。强大。

 数则是从长远在时刻 t 一个续策略π所得的值。

 给定状态下决境模型 Agent要素关系自底 R 函数未知模型的不确定择。

 作集 A 中的一选择的策略组题具有最优效励信号,它通的一种评价,强化学习的目远的角度来考个状态 ts ( s得到的总的奖决策出要执行在作决策的 底向上呈金字知,所以系统定性和目标的一个动作 a 组成的集合效果的策略 通常作为 Age通常用一个目的就是使 A考虑一个状态S s t ∈ )的值奖赏的期望,行的某个动作的同时将考虑字塔结构。系统是依赖于每的长远性,在

 nt 修个标量Agent态( 值,是记为作,模未来统所每次试在策略

 采用模拟强化大。

 瞬时TD 方用值是指TD(0算法计的指环终止其二直到可以用马尔可夫决拟退火法、遗化学习算法的根据不同的时差分学习算方法在不需要值函数进行迭指 Agent 获得0) 法的值函数迭) (ts V其中参数 α的状态值函数环境状态从ts止状态的学习TD 学习算法二是在新行为到值函数收。TD 学习算法以回退任意步决策过程建模遗传算法以及的目的就是为的报酬准则 V算法 要系统模型情迭代。最简单的得的瞬时奖赏迭代公式为:) (ts V + ← αα 为学习率(或数; ) (1 + ts V 指t 转到 1 + ts 时反习过程,称为法事实上包含为策略指导下 法的更一般形步,其值函数模的强化学习及一些其他的进为了找到一个π (s)有不同的情况下可以直的 TD 算法为赏值仅向后回

 ( (1 tV r ++γ α或学习步长);指 Agent 在下反馈给 Agen为一幕(episode含了两个步骤下,通过所获得形式是 TD( λ数迭代公式为分为:1.值函进化方法。策略,使得的形式。

 直接从 Agent为一步 TD 算回退一步,也( ) (1 t ts V s −+; γ 为折扣率下一个时刻访nt 的瞬时奖赏e)。

 骤:其一是从得的瞬时奖惩),TD( λ )表示:

 函数估计法;Agent 在每个经验中学习算法,即 TD(也就是只迭代))

 率; ) (ts V 为访问环境状态赏值。一次完当前学习循环惩值对该策略示 Agent 在获2.策略空间个状态 s 的值习,同时和动(0)算法。所谓代修改了相邻为 Agent 在环态1 + ts 时估计完整的学习是环的值函数确略进行评估。就获得回报并调间直接搜索法值 Vπ (s)都达动态规划一样谓一步 TD 算状态的估计值环境状态ts 时的状态值函数是指从起始状确定新行为策就这样不断循调整估计值的,如达到最 ,利算法,值. 时估数;r 状态到策略;循环,时候

 ) ( ) ( ) ( [ ) ( ) (1s e s V s V r s V s Vt t t t− + + =+γ α

 其中,e(s)定义为状态 s 的资格迹(Eligibiligy

 Traces),是指环境状态 s 在最近被访问的程度。一般定义如下:

 K ts sk ttkts e=−== δ λγ1) ( ) ( ,其中otherwises sk ts sk t, 0, 1{,== δ

 当 Agent 收到环境的回报时,该回报被用来根据资格迹更新最近访问过的所有环境状态。可以在线更新资格迹如下:

  = +=otherwise s es s s es et), (, 1 ) () (γλ Q 学习算法

 Q 学习算法(Q-Learning)是强化学习算法中的一个重要里程碑,它是一种模型无关的强化学习算法。不同于 TD 算法只对状态进行值估计,Q 学习是对状态动作对的值函数进行估计以求得最优策略。

  学习的过程如下:在某个状态 s 下,Agent 选择一个动作 a 执行,然后根据 Agent所收到的关于该动作的奖赏值和当前的状态动作值的估计来对动作的结果进行评估。对所有状态下的所有行为进行这样的重复,Agent 通过对长期的折扣回报的判断,就可以学习总体上的最优行为。

 Q 学习中最简单的一种形式为单步 Q 学习,其 Q 值函数迭代公式为:

 [ ] ) , ( ) , ( max ) , ( ) , (1 1 t t t tat t t t ta s Q a s Q r a s Q a s Q − + + ←+ +γ α

 其中,参数 α 为学习率(或学习步长); γ 为折扣率; ) , Q(s rta 是状态动作对的值函数,表示 Agent 在环境状态ts 下执行动作ta

 后再按策略 π 映射动作所得到的报酬总值。

 文献证明了在满足一定条件下,对于 a s, ∀ ,第 k 次更新的 Q 值函数 Q(s,a)将以概率 1 收敛到最优 Q 值函数 Q*(s, a)(k ∞ → )。

  Q 学习算法的美妙之处在于其评估函数的定义具有如下特点:

 (1)当前状态-动作对的 Q 值概括了所有需要的信息; (2)能够确定环境状态 s 下选择动作 a 在将来会得到的折扣累积奖赏; (3)无需中间的代价评估步骤和环境模型的知识

推荐访问:强化学习方法及应用研究 学习方法 强化 研究