一文读懂强化学习!
创始人
2025-06-01 02:18:52
0

一.了解强化学习

1.1基本概念

强化学习是考虑智能体(Agent)与环境(Environment)的交互问题:智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给智能体一个奖赏。

举个例子:

智能体

机器人

环境

4*3的方格

状态

当前所在位置(初始位置为[1,1])

策略

在当前状态下,我向上走的概率为0.8,向左向右分别是0.1

行为(动作)

向上走一步

奖励

走到绿色方格奖励10,走到红色方格奖励-10,其他方格奖励-1

状态转移概率

采取向上走一步,实际上有0.9的概率到达上面一格,有0.1概率到达右边一格


  • 回报:定义当前时刻后的累积奖赏为回报(Return)

在上述场景下,回报是指机器人从当前位置走到终点(红色或者绿色方格)的奖励之和

针对一些自然场景(比如无人驾驶),到达终端状态的时间很长或者不存在终端状态,提出了折扣因子的概念,γ<1

  • 状态价值函数:智能体处于不同状态时的价值,即在状态s下的期望回报

针对上述场景:机器人处于每个状态下的不同价值,可以看到,当机器人越靠近绿色方格时,机器人的状态价值越大。(状态价值的具体计算方法后面会详细介绍,这里的具体数据无实际意义,仅仅用来参考)

  • 动作价值函数:在当前状态下,执行动作a获得的期望回报

以上图为例,在经过求解动作价值函数以后(假设已经完成了求解),在[1,1]状态,

那么选取向上的行为会比采取向右的行为更有价值。


Q:为什么要引入状态价值函数或者动作价值函数呢?

A:强化学习最根本的目的是为了求策略,但是我们并不知道那个策略是最优,因此需要引入评价函数(状态价值函数或者动作价值函数)来给当前状态(策略)进行打分,然后得到最优策略


下面会详细介绍不同的强化学习方法,但是基本思路都是相似的,求解最优值函数,或者求解最优策略。

二.基于模型的强化学习-Model-base

2.1动态规划方法

  • 马尔可夫性:系统的下一个状态仅与当前状态有关,而与历史状态无关。

在1.1节的状态价值函数和动作价值函数的推导过程已经用到了马尔可夫性

  • 贝尔曼方程:

考虑γ=1,当前时刻的状态价值函数=当前状态的奖励+到达下一状态的价值的期望。

在状态有限的情况下,本质上是解一个方程组,因此贝尔曼方程叫做贝尔曼方程组更加合理!


举例:考虑如下情况,有四个状态,箭头表示状态转移概率

可以列方程组:

例:

可表示为:

因此就求出了每个状态的价值:

有了状态价值,没有策略怎么办?

得到了每个状态的价值,在当前状态(位置)下,你会怎么走呢?按照常规逻辑,朝着价值大的位置走,对,这就是通过状态价值函数得到了策略

这就是本文的第一个强化学习模型,如果你能够理解上述过程,恭喜你,强化学习已经入门了一丢丢!


上述案例中,状态转移函数以及每个状态的奖励是已知的,也就是模型已知(Model-base),在模型已知的情况下,仅仅通过数学推导就可以完成状态价值函数的求解!而不需要智能体去真实的环境中采取数据!

在现实场景中,模型已知对系统要求过高,通常无法实现,而是通过智能体与环境交互,获得每个状态下的奖励(数据),利用采集的数据+强化学习方法,来更新价值函数或者策略函数。

三.无模型强化学习-Model-free

3.1蒙特卡洛方法

在无模型时,采用随机采样的经验平均来估计期望值,此即蒙特卡罗法。其过程可以总结如下:

  • 智能体与环境交互后得到交互序列

  • 通过序列计算出各个时刻的奖赏值

  • 将奖赏值累积到值函数中进行更新

  • 根据更新的值函数来更新策略

举例:仍然以此模型,机器人并不提前知道每个状态的奖励以及状态转移函数,初始给定一个策略以后,让机器人在里面随便跑,到达红色或者绿色的时候停止,收集每个过程的奖励,来更新状态价值函数

G表示从当前状态下出发,到达终点时的奖励,N表示这个过程进行了N次

也可以采用迭代的方法求均值,如下更新策略,本质上和上述过程是一样的。

总结:动态规划与蒙特卡洛的区别:动态规划是有模型的强化学习方法,并不需要智能体与环境进行作用,而蒙特卡洛方法无模型,通过智能体在环境中收集数据进行学习

  • 动态规划:

  • 蒙特卡洛:

3.2时序差分方法

蒙特卡洛方法需要获取完整的轨迹,效率较低,时序差分法结合了动态规划和蒙特卡罗,即模拟一段轨迹(一步或者几步),然后利用贝尔曼方程进行自迭代更新,如下图所示:

举个例子,假设γ=1,假如你想获取北京到上海的距离V(St),你从北京开车到了天津测量距离为Rt+1=100,并且知道天津到上海的距离为V(St+1)=700,那么你就获取了北京到上海的距离800。

如果你本来就有北京到上海的距离V(St)=790,那么采用上述方法就舍弃了原来的数据,显得过于激进,因此可以采用如下更新方法:

zh

相关内容

热门资讯

王凤英入职小鹏3年终获股权,此... 5月7日消息,小鹏汽车披露的监管及年报信息显示,公司总裁王凤英已正式进入股东名册,入职小鹏3年后股权...
五块钱红酒卖断货,便宜红酒为何... 最近一段时间,中国的酒类消费市场可以说是显得格外奇怪,一方面,各种高端酒特别是白酒的消费量出现了明显...
财联社C50风向指数调查:4月... 财联社5月8日讯(记者 夏淑媛)新一期财联社“C50风向指数”结果显示,市场机构对4月新增人民币贷款...
央视硬刚国际足联拒掏20亿,背... 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 央视这次太刚了,离世界杯开幕还有1个月,死活...
新CEO上任直接放大招!Air... 快科技5月8日消息,苹果即将上任的CEO John Ternus对未来一系列新产品充满信心,称这些设...
“特朗普拟邀英伟达、波音等CE... 据路透社当地时间5月7日报道,特朗普政府正邀请英伟达、苹果、埃克森美孚、波音等大公司首席执行官,于下...
世界杯,还能看到直播吗? 2026年美加墨世界杯距离开幕,仅剩一个多月时间。多方信息显示,中央广播电视总台(以下简称“央视”)...
机构警告AI芯片热潮风险,超威... 5月7日,据央视财经,隔夜超威半导体公司(AMD)股价飙升近19%,带动AI芯片热潮持续升温。AMD...
银行员工转走储户1800万最新... 银行员工转走储户1800万最新进展:2名储户已收到银行全部款项
原创 中... 1994年,安徽省的经济格局曾发生过一次戏剧性的转折。在那一年,一座名为安庆的城市,其国内生产总值(...
昆都仑区:政策“蓄力”消费焕新 “一台5000多元的空调,叠加‘国补’和商场的以旧换新活动,能优惠1000元左右,旧机还能免费上门拆...
乐悦置业竞得佛山顺德乐从镇一商... 观点网讯:5月6日,佛山市顺德区乐从镇一商业地块成功出让,由广东省乐悦置业有限公司竞得,乐从南区·邻...
原创 亦... 《爱情没有神话》这部剧,一开始的命运颇为多舛,经历了几次撤档的波折后,终于在观众面前亮相,但其首播的...
美联储34年最大分歧叠加油价飙... 美联储按预期维持利率不变,但内部出现34年来最严重分歧,叠加布油创2022年6月以来新高,美债遭抛售...
支付宝消费券回收后,资金是否支... 摘要: 支付宝消费券回收变现后,资金能否直接转入信用卡?本文解答到账方式的相关规则,帮助用户了解资金...
中医介绍5个化痰穴位!收藏这篇... 很多人忽略了“痰”的危害,觉得咳几下就没事,殊不知,肺里的痰长期堆积,只会一步步加重身体负担。 中医...
黄金平台“杰我睿”涉嫌经济犯罪... 红星资本局5月7日消息,深圳水贝知名金店“杰我睿”兑付困难事件有了新进展。日前,深圳市公安局罗湖分局...
多地出台购房新政促楼市升温 记... 今年的“五一”假期,伴随着多个城市楼市新政密集落地,在叠加市场信心持续修复的作用下,房地产市场热度持...
谁是五一“吸金王”?这5座城市... 来源:市场资讯 (来源:21城市观) 哪座城市成为“五一”假期的大赢家? 图源:摄图网 作者|赵晓...
“低招低裁”格局稳固劳动力市场... 智通财经APP获悉,美国上周初请失业金人数在经历前一周回落至近几十年来最低水平后出现小幅反弹,表明尽...