波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶 波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶
admin
2024-04-27 17:34:40
0

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。

它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。

强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。

通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。

然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。

举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。

受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。


图 | 陈鸣宇(来源:陈鸣宇)

详细来说,他们的算法在无需对奖励或惩罚的幅度假设下,实现了和已有算法相匹配的表现。

通过此提高了强化学习算法的通用性和适应性,使得同一套算法框架可以有效地应用于不同规模和复杂度的问题,从而扩大了强化学习在实际应用中的适用范围和效率。

在实际应用中,无尺度强化学习的可以用于动态调整的推荐系统,它能够实时处理用户行为数据,并不断更新推荐内容以适应用户兴趣的变化。

此外也可用于金融市场的实时交易分析系统,它能够处理高速流动且变化剧烈的市场数据,并即时调整交易策略。

一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中,鉴于安全性的关键性,必须确保避免机器人或自动驾驶车辆采取某些特定行为。

针对这一目标可以通过强化学习实现,即通过对不希望出现的行为施加惩罚来进行训练。

然而,如果对惩罚的幅度设定了限制,那么算法可能需要较长时间来彻底消除这类不期望的行为。

相比之下,本次算法能显著加快此过程,进而有效缩短训练周期并降低相关成本。

如前所述,本次课题的灵感源自于无尺度在线学习的启发。因此,他们旨在探索是否能将在线学习的成果延伸至强化学习领域。

这个想法在直觉上显得颇具挑战性:在线学习允许人们在与环境互动并采取行动后,获取关于奖励或惩罚的全面信息,包括那些不直接由人类行动引起的信息。

而在强化学习的情境下,人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚。

此外,鉴于本次课题面临的是无尺度问题,奖励或惩罚的波动幅度可能非常大。

这就要求他们能够及时获取奖励或惩罚的信息,以便有效调整算法参数。在这样的背景下,他们对信息的需求远远超过了有尺度情境下的需求。

与许多研究工作一样,他们的起点是强化学习中最基本的模型之一:多臂老虎机问题(Multi-armed bandit)。对于这个特定的无尺度多臂老虎机问题,已有一些研究成果。

但当他们深入分析这些先前研究的论文时,发现现有算法的设计理念与在线学习的策略大致相同。

这种相似性导致它们的应用范围仅限于多臂老虎机问题,而难以扩展至更广泛的强化学习领域。

鉴于此,他们决定不再依赖现有的研究框架,而是从零开始,尝试开发全新的无尺度强化学习算法。

本次研究的首项进展源自一个直觉上的灵感:虽然强化学习无法全面获取奖励或惩罚的信息,但是能够通过一些巧妙的设计,使得奖励或惩罚每一部分的信息都有一定机会被观测到。

以多臂老虎机为例,对于算法生成的任何策略,可以引入一个偏差项,确保每个臂都有一定的概率被拉动。在这种情况下,每个臂对应的信息都能有一定概率被获取。

在这一思路指引下,该团队开发了两种针对多臂老虎机的新算法。

这两种算法显著优化了现有成果:让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法,还开发了第一个能够以高概率减小遗憾的算法。

在成功开发了针对多臂老虎机的算法之后,课题组将研究重心转移到了一般化强化学习问题上。

此时他们面临的挑战是:在强化学习的场景中,可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。

例如,在某个强化学习问题中,如果存在一个无法到达的状态,那么该状态相关的信息也就无法被获知。

面对这一问题,他们尝试了多种方法,但均未能达到令人满意的结论。

一个偶然中,课题组注意到一个常被忽略的要点:对强化学习问题来说,某个状态对应的奖励或惩罚信息的重要性,实际上与该状态的可达性有关。

简而言之,如果对所有可能的策略而言,某个状态始终无法到达,那么他们无需关注它的奖励或惩罚信息,因为这些信息并不会对策略的优化产生帮助。

受到这个洞察的启发,他们的问题转化为寻找一种能最大化状态可达性的策略。

如果能找到这样的策略,那么就可以将先前为多臂老虎机问题设计的算法扩展应用,从而完成无尺度强化学习算法的设计。

本次课题的最后一个挑战是:如何找到一种策略能够最大化状态的可达性。

这时,一篇名为《在线强化学习中样本复杂度的解决》(Settling the Sample Complexity of Online Reinforcement Learning)的论文为他们提供了关键的启示。

该研究介绍了一种最新的无奖励强化学习算法(reward-free reinforcement learning)。于是,这个算法成了本次工作的决定性补充。

这让他们找到了一个可以被看作黑盒的工具,帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合,他们最终圆满完成了这项研究。

日前,相关论文以《无标度对抗强化学习》(Scale-free Adversarial Reinforcement Learning)为题发在 arXiv[1],陈鸣宇和 Xuezhou Zhang 是共同作者。


图 | 相关论文(来源:arXiv)

陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”

对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。

长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。

参考资料:

1.https://arxiv.org/pdf/2403.00930

排版:罗以

01/ 科学家提出脑疾早期评估新工具,只需安装5个传感器,就能实现新生儿不安运动数字化

02/ 浙大团队发现全新促癌通路,提出胰腺癌治疗新靶点,正联合业界研发新型小分子药物

03/ 科学家提出模仿学习算法,用GPT-4跨模态训练具身智能体,让智能体与现实世界有效对齐

04/ 北航团队研发生物降解 “电子绷带”,小鼠肠道损伤14天内完全愈合,加速多种器官的伤口愈合

05/ 中德学者首次发现超快卡皮查-狄拉克效应,为研究电子性质带来全新手段,能直接观测电子相位信息


相关内容

热门资讯

电信网和互联网勒索软件防范指南 文件类型:PDF 文件页数:10+ 下载方式:见文末 ———————— 本文件提出了电信网和互联网...
金价、银价、油价,都跌了 当地时间本周二,随着市场对通胀压力的担忧加剧,美国国债收益率持续走高,引发全球债券市场抛售潮。 ...
李寒琼卸任雅戈尔服装制造公司董... 雅戈尔服装制造有限公司发生工商变更,李寒穷卸任法定代表人、董事长,但仍担任副董事长职务,胡纲高接任法...
雷军:小米YU7 GT为时代精... 5月20日,小米创办人,董事长兼CEO雷军发视频回应关于小米YU7 GT相关问题。 雷军表示,小米...
军用吉普上鲜花配着机枪:伊朗为... 当地时间5月18日,伊朗在首都德黑兰为500对报名参加了“奉献生命”计划的夫妇举行了集体婚礼。 婚...
原创 太... 最近,一条消息刷爆了整个财经圈,让无数国人直呼 "太解气"!中国海越能源集团直接硬刚花旗银行和摩根大...
原创 人... 大家好,我是中医主任郭洪波。 血压高不高,早上起床那半小时就能看出来, 早晨是人一天中血压最高的时候...
原创 五... 作者|睿研消费 编辑|Emma 来源|蓝筹企业评论 白酒界的巨头五粮液交出一份“历史最差”成绩单,吓...
美债收益率飙升与美元强势压制金... 来源:市场资讯 文章来源:汇通财经 现货黄金周三亚洲交易时段继续承压下行,金价一度跌至4470美元附...
谈判破裂!三星电子明起大罢工,... 据CCTV国际时讯,韩国三星电子今天(5月20日)的劳资谈判再度宣告破裂,明天起将举行大罢工。 韩国...
Meta启动8000人全球裁员... 来源:环球网 【环球网科技综合报道】5月20日消息,据businesstimes援引彭博社报道称,...
年产值超210亿元!南都专访新... 出门拉业务回厂打螺丝,他用20余年时间,把一个仅有2个人的小作坊发展成为数百人的骨干企业,研发出的一...
SEC计划放宽IPO与财务报告... 5月20日,据路透社报道,美国证券交易委员会(SEC)计划大幅放宽公司上市和报告义务的规则,以推动特...
企业服务领域投融资日报(5月1... 据亿欧数据统计,昨日(2026年5月19日)共披露21起投融资事件,涉及16家国内企业,5家国外企业...
日本国债遭抛售 来源:滚动播报 (来源:北京商报) 日本国内债券市场18日延续抛售行情。作为长期利率指标的新发10年...
长江存储正式启动IPO辅导,上... 长江存储控股股份有限公司启动IPO辅导,中信建投和中信证券为辅导券商 投资时间网、标点财经快讯 ...
【行业】国家能源局发布| 20... 来源:储能科学与技术 近日,国家能源局发布全国各地2026年一季度光伏发电建设情况,全国2026年一...
首程控股:持续加码投资人形机器... 中证智能财讯 首程控股(00697)5月20日早间公告,公司之全资附属公司所管理的基金近日投资北京加...
5月20日投资避雷针:9天6板... 导读:财联社5月20日投资避雷针,近日A股及海外市场潜在风险事件如下。国内经济信息方面包括:1)沿海...