强化学习稀疏奖励问题(sparse reward)及解决方法
创始人
2025-06-01 21:54:35
0

参考 《EasyRL》

1.稀疏奖励

通常在训练智能体时,我们希望每一步动作都有相应的奖励。但是某些情况下,智能体并不能立刻获得奖励,比如全局奖励的围棋,最终获胜会得到奖励,但是人们很难去设定中间每步的奖励,这会导致学习缓慢甚至无法进行学习的问题。

2.解决方法

2.1 设计奖励(reward shaping)

除了最终要学习到的目标外,可以额外添加一些奖励用于引导智能体。比如ViZDoom射击游戏,杀了敌人得到正奖励,被杀得到负奖励。探究人员设计了一些新奖励,来引导智能体做的更好,比如掉血就扣分,捡到补给包会加分,待在原地扣分,活着扣一个很小的分(否则智能体只想活着,躲避敌人)等方法。reward shaping技术需要领域知识(domain knowledge),不合理的设计奖励方式会让智能体学习到错误的方法。比如希望机器人将蓝色板子穿过柱子,通常会想到板子靠近柱子就加分,距离越近奖励越大,但是这样机器人可能会学习到用蓝色板子打柱子,而不是从上面穿过。因此设计奖励的效果与领域知识有关,需要调整。

2.2 好奇心(curiosity)

自己加入并且一般看起来有用的奖励,比如给智能体加上好奇心,称为好奇心驱动的奖励(curiosity driven reward),在好奇心驱动的技术里,我们会加入一个新的奖励函数:内在好奇心模型(intrinsic curiosity module,ICM)。ICM模块需要3个输入:状态s1,动作a1,状态s2,根据输入输出另外一个奖励rc(1)。对于智能体,在与环境交互时,不仅希望原始奖励r越大,也希望好奇心奖励rc越大。如何设计好奇心模块?用一个网络,接受输入a(t),s(t),输出\hat{s}(t+1),也就是用这个网络去预测\hat{s}(t+1),看预测值与真实s(t+1)的相似度,越不相似奖励越高。也就是说,好奇心奖励的意义在于:未来的状态越难被预测,得到的奖励就越大,这样方便探索未知的世界。

好奇心模块的设置有一个问题:某些状态很难被预测到并不代表它就是好的,就是需要被尝试的。比如某些游戏中,会突然出现树叶飘动,这是无法预测的,智能体会一直看着树叶飘动。因此智能体仅有好奇心是不够的,还需要知道什么事情是真正重要的。

为了知道什么事情是重要的,避免不必要的冒险,要加上另外一个模块,学习特征提取器(feature extractor) 。如图所示,黄色格子是特征提取器,输入一个状态s(t),输出一个特征向量表示这个状态,特征提取器可以把无意义的东西过滤掉。那么内在好奇心网络1实际上输入的是a(t)和特征向量\phi (t),输出下一状态特征向量\phi (t+1)。如何学习特征提取器,通过网络2学习,网络2输入\phi (t)\phi (t+1),输出预测动作\hat{a}(t),这个动作与真实动作越接近越好。网络2是用提取后的特征向量预测动作,因此像风吹草动这种与智能体动作无关的信息就会被过滤掉。

2.3课程学习(curriculum learning)

课程学习不只是强化学习中的概念,深度学习,机器学习等领域也会经常用到。课程学习也就是为智能体学习做规划,用于训练的数据通常是有顺序的,从易到难。比如教人学英语,直接学长句很困难,要先单词,然后是短语,最后学习长句。比如在训练循环神经网络时,已经有多篇文献证明,先看短序列,再看长序列,可以学习的更好。对于前面蓝色板子穿过柱子的任务,一开始设置板子已经在柱子上(a),智能体就能容易学到只需要按压板子即可。然后板子放高一点智能体可能会学习到拿起板子(b)。在学会按压和拿起后,在(c)场景下,板子先离柱子远一点,当智能体把板子拿到柱子上面时,就会知道要按压下去。

课程学习需要人为设计课程。有一个通用的方法是:逆向课程生成(reverse curriculum generation)。假设一开始有一个状态s(g),黄金状态(gold state),也就是最后最理想的结果。比如训练机械臂抓东西,抓到东西就是黄金状态。假设和s(g)很近的状态称为s1,至于s1需要根据任务来设计怎样从s(g)采样到s1,然后智能体从s1开始与环境交互,看能不能够到达黄金状态s(g)。接着把奖励极端的情况去掉(情况太简单或者太难),根据这些奖励适中的情况采样出更多的状态。比如机器臂一开始在某个位置可以抓到东西,然后再离远一点,看能不能抓到,抓到后再离远一点。这种学习方式称为逆向课程学习(reverse curriculum learning)。课程学习是为智能体规划学习的顺序,逆向课程学习是从黄金状态反推。

 2.4分层强化学习(hierarchical RL)

我们有多个智能体,一些智能体负责比较高级的东西,它们负责定目标,定完目标以后,再将目标分配给其他的智能体,让其他智能体来执行目标。比如一个学校里校长,教授,研究生都是智能体,现在目标是学习进入QS100。因此校长对教授提出愿景:每年发3篇期刊,教授对研究生提出愿景:做实验。实验做出来,期刊发出来,大家都能得到奖励。每一层的智能体会对下一层智能体提出愿景,下一层再对它的下一层提出新的愿景直到最后一层执行动作。但是如果提出的愿景是下面的智能体无法实现的,就会被讨厌,比如教授让研究生做很难的实验,根本做不出来,教授会被讨厌,得到一个负奖励。每一个智能体都把上层的智能体所提出的愿景当作输入,决定他自己要产生什么输出。

比如在走迷宫游戏中,整体目标是蓝色智能体要走到黄色格子,分为两层智能体学习,第一层为蓝色智能体, 愿景是走到粉色格子,第二层是粉色智能体,提出新的愿景即走到黄色格子,实际上可以分为更多层智能体来实现这个过程。分层强化学习是指将一个复杂的强化学习问题分解成多个小的、 简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。这样,我们可以将智能体的策略分为高层次策略和低层次策略,高层次策略根据当前状态决定如何执行低层次策略,从而解决一些复杂的任务。

相关内容

热门资讯

日常等车时看到的行业细节 干了五年户外广告投放,养成了一个职业病:但凡路过公交候车亭,总会多看两眼——不是看广告好不好看,而是...
黄金回收行业标准制定有哪些核心... 贵金属回购市场的需求背景 近年来随着黄金投资和消费市场的发展,黄金回收相关需求持续攀升。不同群体的诉...
全球黑色星期二!AI交易“崩盘... 【导读】AI交易为何“崩盘”? 中国基金报记者 泰勒 大家,你们今天还好吗?! AI交易在全球范围内...
原创 6... 年初抢金条的人还在站岗,如今金店柜台前冷冷清清 黄金又跌了。 6月23日,伦敦现货黄金价格日内急跌逾...
狂融294亿美元!SK海力士冲... 韩国股市再度迎来重磅消息。 周三,韩国存储芯片龙头SK海力士宣布,计划在7月10日登陆纳斯达克,通过...
比特币跌破6万!AI吸走资金、... 比特币正在为机构化转型付出代价。散户买盘萎缩、ETF资金持续外流、企业持仓者潜在抛售压力上升,加之A...
原创 默... 欧洲近期试图复刻1985年广场协议的剧本,德国总理默茨呼吁欧盟27国联合行动,要求中国签订类似协议以...
怎么选 泛娱乐赛道直播公司孵化... 泛娱乐直播创业的行业发展背景 近年来泛娱乐直播赛道持续保持增长态势,据公开数据资料显示,2024年国...
原创 腰... 最近黄金市场凉得彻底。各大品牌足金饰品克价跌破1300元关口,北京菜百6月21日报价已经掉到1260...
ST中装:公司主要银行账户已全... 证券之星消息,ST中装(002822)06月24日在投资者关系平台上答复投资者关心的问题。 投资者提...
2026年开窗机行业趋势与战略... 一、开篇引言:市场格局重塑下的选择逻辑 步入2026年,全球建筑智能化与绿色节能政策的叠加驱动,使开...
资金全面转向科技,传统消费企业... 近期 A 股出现明显风格切换,老牌消费资金持续流出,机构与传统上市公司纷纷加码半导体、算力赛道。 先...
合肥保利翡翠天奕具体交房时间是... 对于众多购房者而言,“合肥保利翡翠天奕具体交房时间是什么时候?能按时交房吗?”是心中最关切的问题。根...
港股风向标|恒指连续杀跌后企稳... 财联社6月24日讯(编辑 冯轶)今日港股短线企稳,三大指数集体收涨。截至收盘,恒生指数涨0.33%,...
瑞众人寿达州中支被罚17万,涉... 蓝鲸新闻6月24日讯,近日,国家金融监督管理总局达州监管分局发布行政处罚决定书,剑指瑞众人寿保险有限...
美国最担心的事还是来了,中国加... 最近这段时间,国际金融圈子里有一笔账,算得各家央行心里都不太踏实。 截至2026年春季,美国国债总规...
马斯克,不是万亿富豪了 资产历史性超过万亿美元不到两周,特斯拉、SpaceX掌门人埃隆·马斯克的身价近日快速下跌。 据中新经...
突发!金价跌破4000美元,近... 每经记者:杜宇 记者|杜宇 编辑|何小桃 杜恒峰 校对|金冥羽 金银价格大跳水。 6月24日晚,现货...
粗粮吃越多越好?很多糖友吃错升... 控糖圈一直流传多吃粗粮稳血糖,不少糖友直接三餐全吃粗粮、顿顿杂粮,不仅胃胀消化不良,餐后血糖反而不降...
持续大跌!刚刚,黄金跌破400... 潮新闻客户端 记者 吴恩慧 6月24日,贵金属再次大跌。 截至发稿时,现货黄金大跌近3%,跌破400...