波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶 波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶
admin
2024-04-27 17:34:40
0

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。

它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。

强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。

通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。

然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。

举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。

受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。


图 | 陈鸣宇(来源:陈鸣宇)

详细来说,他们的算法在无需对奖励或惩罚的幅度假设下,实现了和已有算法相匹配的表现。

通过此提高了强化学习算法的通用性和适应性,使得同一套算法框架可以有效地应用于不同规模和复杂度的问题,从而扩大了强化学习在实际应用中的适用范围和效率。

在实际应用中,无尺度强化学习的可以用于动态调整的推荐系统,它能够实时处理用户行为数据,并不断更新推荐内容以适应用户兴趣的变化。

此外也可用于金融市场的实时交易分析系统,它能够处理高速流动且变化剧烈的市场数据,并即时调整交易策略。

一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中,鉴于安全性的关键性,必须确保避免机器人或自动驾驶车辆采取某些特定行为。

针对这一目标可以通过强化学习实现,即通过对不希望出现的行为施加惩罚来进行训练。

然而,如果对惩罚的幅度设定了限制,那么算法可能需要较长时间来彻底消除这类不期望的行为。

相比之下,本次算法能显著加快此过程,进而有效缩短训练周期并降低相关成本。

如前所述,本次课题的灵感源自于无尺度在线学习的启发。因此,他们旨在探索是否能将在线学习的成果延伸至强化学习领域。

这个想法在直觉上显得颇具挑战性:在线学习允许人们在与环境互动并采取行动后,获取关于奖励或惩罚的全面信息,包括那些不直接由人类行动引起的信息。

而在强化学习的情境下,人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚。

此外,鉴于本次课题面临的是无尺度问题,奖励或惩罚的波动幅度可能非常大。

这就要求他们能够及时获取奖励或惩罚的信息,以便有效调整算法参数。在这样的背景下,他们对信息的需求远远超过了有尺度情境下的需求。

与许多研究工作一样,他们的起点是强化学习中最基本的模型之一:多臂老虎机问题(Multi-armed bandit)。对于这个特定的无尺度多臂老虎机问题,已有一些研究成果。

但当他们深入分析这些先前研究的论文时,发现现有算法的设计理念与在线学习的策略大致相同。

这种相似性导致它们的应用范围仅限于多臂老虎机问题,而难以扩展至更广泛的强化学习领域。

鉴于此,他们决定不再依赖现有的研究框架,而是从零开始,尝试开发全新的无尺度强化学习算法。

本次研究的首项进展源自一个直觉上的灵感:虽然强化学习无法全面获取奖励或惩罚的信息,但是能够通过一些巧妙的设计,使得奖励或惩罚每一部分的信息都有一定机会被观测到。

以多臂老虎机为例,对于算法生成的任何策略,可以引入一个偏差项,确保每个臂都有一定的概率被拉动。在这种情况下,每个臂对应的信息都能有一定概率被获取。

在这一思路指引下,该团队开发了两种针对多臂老虎机的新算法。

这两种算法显著优化了现有成果:让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法,还开发了第一个能够以高概率减小遗憾的算法。

在成功开发了针对多臂老虎机的算法之后,课题组将研究重心转移到了一般化强化学习问题上。

此时他们面临的挑战是:在强化学习的场景中,可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。

例如,在某个强化学习问题中,如果存在一个无法到达的状态,那么该状态相关的信息也就无法被获知。

面对这一问题,他们尝试了多种方法,但均未能达到令人满意的结论。

一个偶然中,课题组注意到一个常被忽略的要点:对强化学习问题来说,某个状态对应的奖励或惩罚信息的重要性,实际上与该状态的可达性有关。

简而言之,如果对所有可能的策略而言,某个状态始终无法到达,那么他们无需关注它的奖励或惩罚信息,因为这些信息并不会对策略的优化产生帮助。

受到这个洞察的启发,他们的问题转化为寻找一种能最大化状态可达性的策略。

如果能找到这样的策略,那么就可以将先前为多臂老虎机问题设计的算法扩展应用,从而完成无尺度强化学习算法的设计。

本次课题的最后一个挑战是:如何找到一种策略能够最大化状态的可达性。

这时,一篇名为《在线强化学习中样本复杂度的解决》(Settling the Sample Complexity of Online Reinforcement Learning)的论文为他们提供了关键的启示。

该研究介绍了一种最新的无奖励强化学习算法(reward-free reinforcement learning)。于是,这个算法成了本次工作的决定性补充。

这让他们找到了一个可以被看作黑盒的工具,帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合,他们最终圆满完成了这项研究。

日前,相关论文以《无标度对抗强化学习》(Scale-free Adversarial Reinforcement Learning)为题发在 arXiv[1],陈鸣宇和 Xuezhou Zhang 是共同作者。


图 | 相关论文(来源:arXiv)

陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”

对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。

长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。

参考资料:

1.https://arxiv.org/pdf/2403.00930

排版:罗以

01/ 科学家提出脑疾早期评估新工具,只需安装5个传感器,就能实现新生儿不安运动数字化

02/ 浙大团队发现全新促癌通路,提出胰腺癌治疗新靶点,正联合业界研发新型小分子药物

03/ 科学家提出模仿学习算法,用GPT-4跨模态训练具身智能体,让智能体与现实世界有效对齐

04/ 北航团队研发生物降解 “电子绷带”,小鼠肠道损伤14天内完全愈合,加速多种器官的伤口愈合

05/ 中德学者首次发现超快卡皮查-狄拉克效应,为研究电子性质带来全新手段,能直接观测电子相位信息


相关内容

热门资讯

免疫健康市场新宠:728肽康灵... 在免疫健康领域,各类技术路径不断演进。近期,一种名为728肽康灵的物质进入市场视野,引发了行业观察者...
现货黄金,失守5000美元!港... 每经编辑|杜宇 2月16日,港股只开市半日,大盘上演V型反弹,港股三大指数探底回升。 截至收盘,恒...
刚刚,港股V型反转!科技股走强... 2月16日,春节前最后一个交易日,港股只开市半日,大盘上演V型反弹,港股三大指数探底回升。 截至午间...
原创 重... 最近金融圈里出了件大事,中国人民银行等八部门联合发文,全面收紧对虚拟货币和现实世界资产代币化(RWA...
17年坚守包装线,她亲历日化产... 过年前夕,广州番禺立白工厂的液洗大楼内,洗洁精、洗衣液的香气混合着机器的轰鸣,番禺立白液洗包装班长崔...
创业直播间,戳中打工人 转自:海克财经 文丨海克财经 许俊浩 近期国内热门视频内容,当属创业领域的直播连麦。 所谓连麦...
银行业将添“新丁”!国家金融监... 来源:深圳商报 国内银行业将添“新丁”!2月13日,国家金融监督管理总局官网发布关于筹建甘肃农村商业...
俄罗斯多地遭大规模无人机袭击 据中新社消息,莫斯科市长索比亚宁15日晚在社交媒体上最新发文表示,俄防空系统又摧毁了6架飞往莫斯科的...
中信银行招标结果:2026-H... 证券之星消息,根据天眼查APP-财产线索数据整理,中信银行股份有限公司2月13日发布《2026-HS...
94岁的股神巴菲特,给我们最后... 观点 / 刘润 主笔 / 景九 责编 / 黄静 本文首发于2025年05月 以下是这篇次条重发文章...
Alnylam制药首次盈利:A... 在全球制药行业中,Alnylam制药是一家备受瞩目的公司,尤其以其在RNA干扰技术领域的创新而闻名。...
MINIMAX-WP盘中涨超1... MINIMAX-WP盘中涨超14%,高见778港元,再创上市以来新高。截至发稿,股价上涨13.97%...
刚刚,市场跳水!这一板块,直线... 【导读】恒生科技指数盘中跌近2%,互联网巨头走低;有色金属活跃,半导体板块直线拉升 中国基金报记者 ...
原创 在... 尽管房地产的黄金时代已成过往,国内楼市正经历着量价齐跌的寒冬。曾经炙手可热的房地产市场,如今却面临着...
港股速报 | 港股半日市收官在... 今日(2月16日,除夕),港股迎来半日市交易(9:30—12:00),开盘后整体呈现小幅低开震荡态势...
2026年新年献词 | 中庚基... 来源:财联社 开栏语:马年新春至,辞旧启新程。回顾旧岁,证券业转型深化与公募业高质量发展并行,成...
2026年2月成都二手房翻新:... 朋友们,我是老陈,一个在成都装修圈摸爬滚打了十几年的“老炮儿”。最近我表弟刚买了套老破小,准备翻新当...
恒生科技指数跌超1%,阿里巴巴... 恒生科技指数延续下跌,跌幅扩大至1.22%,现报5294.94点。 大型科技股中,阿里巴巴-W跌2...
黄金、白银全线下跌,现货白银一... 每经编辑|杜宇 今日(2月16日)开盘,现货黄金、白银走低。现货白银今早一度跌逾3%。 图片来源...
宁德时代与永太科技“以股换股”... 本报(chinatimes.net.cn)记者胡雅文 北京报道 永太科技(002326.SZ)与宁德...