波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶 波士顿大学团队提出无尺度强化学习算法,能用于金融交易和自动驾驶
admin
2024-04-27 17:34:40
0

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。

它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。

强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。

通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。

然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。

举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。

受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。


图 | 陈鸣宇(来源:陈鸣宇)

详细来说,他们的算法在无需对奖励或惩罚的幅度假设下,实现了和已有算法相匹配的表现。

通过此提高了强化学习算法的通用性和适应性,使得同一套算法框架可以有效地应用于不同规模和复杂度的问题,从而扩大了强化学习在实际应用中的适用范围和效率。

在实际应用中,无尺度强化学习的可以用于动态调整的推荐系统,它能够实时处理用户行为数据,并不断更新推荐内容以适应用户兴趣的变化。

此外也可用于金融市场的实时交易分析系统,它能够处理高速流动且变化剧烈的市场数据,并即时调整交易策略。

一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中,鉴于安全性的关键性,必须确保避免机器人或自动驾驶车辆采取某些特定行为。

针对这一目标可以通过强化学习实现,即通过对不希望出现的行为施加惩罚来进行训练。

然而,如果对惩罚的幅度设定了限制,那么算法可能需要较长时间来彻底消除这类不期望的行为。

相比之下,本次算法能显著加快此过程,进而有效缩短训练周期并降低相关成本。

如前所述,本次课题的灵感源自于无尺度在线学习的启发。因此,他们旨在探索是否能将在线学习的成果延伸至强化学习领域。

这个想法在直觉上显得颇具挑战性:在线学习允许人们在与环境互动并采取行动后,获取关于奖励或惩罚的全面信息,包括那些不直接由人类行动引起的信息。

而在强化学习的情境下,人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚。

此外,鉴于本次课题面临的是无尺度问题,奖励或惩罚的波动幅度可能非常大。

这就要求他们能够及时获取奖励或惩罚的信息,以便有效调整算法参数。在这样的背景下,他们对信息的需求远远超过了有尺度情境下的需求。

与许多研究工作一样,他们的起点是强化学习中最基本的模型之一:多臂老虎机问题(Multi-armed bandit)。对于这个特定的无尺度多臂老虎机问题,已有一些研究成果。

但当他们深入分析这些先前研究的论文时,发现现有算法的设计理念与在线学习的策略大致相同。

这种相似性导致它们的应用范围仅限于多臂老虎机问题,而难以扩展至更广泛的强化学习领域。

鉴于此,他们决定不再依赖现有的研究框架,而是从零开始,尝试开发全新的无尺度强化学习算法。

本次研究的首项进展源自一个直觉上的灵感:虽然强化学习无法全面获取奖励或惩罚的信息,但是能够通过一些巧妙的设计,使得奖励或惩罚每一部分的信息都有一定机会被观测到。

以多臂老虎机为例,对于算法生成的任何策略,可以引入一个偏差项,确保每个臂都有一定的概率被拉动。在这种情况下,每个臂对应的信息都能有一定概率被获取。

在这一思路指引下,该团队开发了两种针对多臂老虎机的新算法。

这两种算法显著优化了现有成果:让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法,还开发了第一个能够以高概率减小遗憾的算法。

在成功开发了针对多臂老虎机的算法之后,课题组将研究重心转移到了一般化强化学习问题上。

此时他们面临的挑战是:在强化学习的场景中,可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。

例如,在某个强化学习问题中,如果存在一个无法到达的状态,那么该状态相关的信息也就无法被获知。

面对这一问题,他们尝试了多种方法,但均未能达到令人满意的结论。

一个偶然中,课题组注意到一个常被忽略的要点:对强化学习问题来说,某个状态对应的奖励或惩罚信息的重要性,实际上与该状态的可达性有关。

简而言之,如果对所有可能的策略而言,某个状态始终无法到达,那么他们无需关注它的奖励或惩罚信息,因为这些信息并不会对策略的优化产生帮助。

受到这个洞察的启发,他们的问题转化为寻找一种能最大化状态可达性的策略。

如果能找到这样的策略,那么就可以将先前为多臂老虎机问题设计的算法扩展应用,从而完成无尺度强化学习算法的设计。

本次课题的最后一个挑战是:如何找到一种策略能够最大化状态的可达性。

这时,一篇名为《在线强化学习中样本复杂度的解决》(Settling the Sample Complexity of Online Reinforcement Learning)的论文为他们提供了关键的启示。

该研究介绍了一种最新的无奖励强化学习算法(reward-free reinforcement learning)。于是,这个算法成了本次工作的决定性补充。

这让他们找到了一个可以被看作黑盒的工具,帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合,他们最终圆满完成了这项研究。

日前,相关论文以《无标度对抗强化学习》(Scale-free Adversarial Reinforcement Learning)为题发在 arXiv[1],陈鸣宇和 Xuezhou Zhang 是共同作者。


图 | 相关论文(来源:arXiv)

陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”

对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。

长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。

参考资料:

1.https://arxiv.org/pdf/2403.00930

排版:罗以

01/ 科学家提出脑疾早期评估新工具,只需安装5个传感器,就能实现新生儿不安运动数字化

02/ 浙大团队发现全新促癌通路,提出胰腺癌治疗新靶点,正联合业界研发新型小分子药物

03/ 科学家提出模仿学习算法,用GPT-4跨模态训练具身智能体,让智能体与现实世界有效对齐

04/ 北航团队研发生物降解 “电子绷带”,小鼠肠道损伤14天内完全愈合,加速多种器官的伤口愈合

05/ 中德学者首次发现超快卡皮查-狄拉克效应,为研究电子性质带来全新手段,能直接观测电子相位信息


相关内容

热门资讯

芜湖这16家门店,供应平价菜! 为保障2026年元旦、春节期间市场供应稳定,促进节日消费,芜湖市发改委发布通知,于元旦和春节期间统一...
声纹分析AI脑语引擎专业品牌探... 《中国老龄事业发展统计公报(2025)》显示,我国60岁及以上人口已突破2.64亿,占总人口18.7...
精准捕捉市场空白 于双碳赛道书... 编者按:当下,创业的热潮席卷三湘大地,“创业”无疑成为今年湖南备受瞩目的热词。为此,湖南红网新媒体集...
全球超大城市排名:东京滑落为全... 近日,共同社援引联合国经济和社会事务部2025年11月发布的报告,抛出了一组颠覆认知的全球城市人口数...
闪迪:股价年涨559%,26财... 【人工智能热潮带动闪迪股价飙升,营收增长显著】1月1日消息,人工智能热潮为存储芯片带来强劲需求。美国...
新年第一天,金饰克价还在跌 专家呼吁消费者理性看待短期金价波动和金饰营销话术。 1月1日,元旦假期首日,各大黄金珠宝品牌的克重金...
2025年最后一天,美联储“创... 美联储常备回购便利在2025年最后一个交易日的使用规模创下历史新高。纽约联储的常备回购便利(SRF)...
凯文教育等教育股:12 月 3... 【12月31日A股教育股走强,受教育部政策消息刺激】12月31日,A股市场教育股表现强劲。凯文教育涨...
海口机场2025年货邮吞吐量创... 中新网海口1月1日电(黄裕光 蔡莲珠)海口美兰国际机场(下称美兰机场)1日介绍,美兰机场2025年旅...
医疗AI时代来临,外科医生会被... 温馨提示:本文仅用于提供科普和专业信息,不能替代专业医生的诊断与治疗。建议患者根据自身情况咨询专业医...
又一家国产GPU企业,IPO辅... 每经编辑|张锦河 1月1日,证监会官网IPO辅导公示系统显示,上海燧原科技股份有限公司(简称“燧原...
崔传刚:科技为国而商,为需而兴 来源:经济学家圈 科技为国而商,为需而兴——2025年中国商业科技的发展与2026年展望 崔传刚 ...
原创 美... 想想看,2025年这个年头,美国人居然在自家论坛上纠结这么个问题,总觉得有点讽刺。明明全球经济风起云...
2025投行排行:中信卫冕,国... 文丨惠凯 编辑丨承承 2025年A股IPO市场,头部券商主导市场,半导体企业IPO成为投行业绩关键。...
坛子售酒机 坛子售酒机:物联网新零售如何重塑散白酒市场格局 在传统零售模式面临深刻变革的今天,一个融合了古老酒...
印度烟草公司股价创2020年3... 来源:环球市场播报 印度政府宣布大幅上调卷烟消费税,受此影响,印度烟草公司(ITC)股价一度暴跌7....
原创 欧... 有没有感觉到:欧洲,怎么好像突然就不行了? 以前欧盟总被认为是世界一级,和中美俄并列,俄乌冲突之后,...
越疆科技启动A股IPO,半年亏... 在港交所上市约一年后,“协作机器人第一股”越疆科技将目光投向了A股市场。 12月29日晚间,深圳市越...
六大国有银行,集体宣布 12月31日,工商银行、农业银行、中国银行、建设银行、交通银行、邮储银行六大国有银行同时公告,自20...
莞北商业新地标!旗云广场正式启... 2025年12月31日,作为“粤享暖冬 乐购东莞”石龙2026迎新消费季的重头戏,由东实集团打造的莞...