【深入浅出 Yarn 架构与实现】5-1 Yarn 资源调度器基本框架
创始人
2025-06-01 03:53:26
0

资源调度器是 YARN 中最核心的组件之一,它是 ResourceManager 中的一个插拔式服务组件,负责整个集群资源的管理和分配。
Yarn 默认提供了三种可用资源调度器,分别是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair Scheduler。
本节会重点介绍资源调度器的基本框架,在之后文章中详细介绍 Capacity Scheduler 和 Fair Scheduler。

一、基本架构

资源调度器是最核心的组件之一,并且在 Yarn 中是可插拔的,Yarn 中定义了一套接口规范,以方便用户实现自己的调度器,同时 Yarn 中自带了FIFO,CapacitySheduler, FairScheduler三种常用资源调度器。
image.png

一)资源调度模型

Yarn 采用了双层资源调度模型。

  • 第一层中,RM 中的资源调度器将资源分配给各个 AM(Scheduler 处理的部分)
  • 第二层中,AM 再进一步将资源分配给它的内部任务(不是本节关注的内容)

Yarn 的资源分配过程是异步的,资源调度器将资源分配给一个应用程序后,它不会立刻 push 给对应的 AM,而是暂时放到一个缓冲区中,等待 AM 通过周期性的心跳主动来取(pull-based通信模型)

  • NM 通过周期心跳汇报节点信息
  • RM 为 NM 返回一个心跳应答,包括需要释放的 container 列表等信息
  • RM 收到的 NM 信息触发一个NODE_UPDATED事件,之后会按照一定策略将该节点上的资源分配到各个应用,并将分配结果放到一个内存数据结构中
  • AM 向 RM 发送心跳,获得最新分配的 container 资源
  • AM 将收到的新 container 分配给内部任务

二)资源表示模型

NM 启动时会向 RM 注册,注册信息中包含该节点可分配的 CPU 和内存总量,这两个值均可通过配置选项设置,具体如下:

  • yarn.nodemanager.resource.memory-mb:可分配的物理内存总量,默认是8G
  • yarn.nodemanager.vmem-pmem-ratio:任务使用单位物理内存量对应最多可使用的虚拟内存,默认值是2.1,表示使用1M的物理内存,最多可以使用2.1MB的虚拟内存总量
  • yarn.nodemanager.resource.cpu-vcores:可分配的虚拟CPU个数,默认是8。为了更细粒度地划分CPU资源和考虑到CPU性能差异,YARN允许管理员根据实际需要和CPU性能将每个物理CPU划分成若干个虚拟CPU,而管理员可为每个节点单独配置可用的虚拟CPU个数,且用户提交应用程序时,也可指定每个任务需要的虚拟CPU数

Yarn 支持的调度语义

  • 请求某个节点上的特定资源量
  • 请求某个特定机架上的特定资源量
  • 将某些节点加入(或移除)黑名单,不再为自己分配这些节点上的资源
  • 请求归还某些资源

Yarn 不支持的调度语义(随着 Yarn 的不断迭代,可能会在未来实现):

  • 请求任意节点上的特定资源量
  • 请求任意机架上的特定资源量
  • 请求一组或几组符合某种特质的资源
  • 超细粒度资源。比如CPU性能要求、绑定CPU等
  • 动态调整Container资源,允许根据需要动态调整Container资源量

三)资源保证机制

当单个节点的闲置资源无法满足应用的一个 container 时,有两种策略:

  • 放弃当前节点等待下一个节点;
  • 在当前节点上预留一个 container 申请,等到节点有资源时优先满足预留。

YARN 采用了第二种增量资源分配机制(当应用程序申请的资源暂时无法保证时,为应用程序预留一个节点上的资源直到累计释放的空闲资源满足应用程序需求),这种机制会造成浪费,但不会出现饿死现象

四)层级队列管理

Yarn 的队列是层级关系,每个队列可以包含子队列,用户只能将任务提交到叶子队列。管理员可以配置每个叶子队列对应的操作系统用户和用户组,也可以配置每个队列的管理员。管理员可以杀死队列中的任何应用程序,改变任何应用的优先级等。
队列的命名用 . 来连接,比如 root.A1root.A1.B1

二、三种调度器

Yarn 的资源调度器是可以配置的,默认实现有三种 FIFOCapacitySchedulerFairScheduler

一)FIFO

FIFO 是 Hadoop设计之初提供的一个最简单的调度机制:先来先服务。
所有任务被统一提交到一个队里中,Hadoop按照提交顺序依次运行这些作业。只有等先来的应用程序资源满足后,再开始为下一个应用程序进行调度运行和分配资源。
优点:

  • 原理是和实现简单。也不需要任何单独的配置

缺点:

  • 无法提供 QoS,只能对所有的任务按照同一优先级处理。
  • 无法适应多租户资源管理。先来的大应用程序把集群资源占满,导致其他用户的程序无法得到及时执行。
  • 应用程序并发运行程度低。

二)Capacity Scheduler

Capacity Scheduler 容量调度是 Yahoo! 开发的多用户调度器,以队列为单位划分资源。
每个队列可设定一定比例的资源最低保证和使用上限。每个用户也可设置一定的资源使用上限,以防资源滥用。并支持资源共享,将队列剩余资源共享给其他队列使用。配置文件名称为 capacity-scheduler.xml。
主要特点:

  • **容量保证:**可为每个队列设置资源最低保证(capacity)和资源使用上限(maximum-capacity,默认100%),而所有提交到该队列的应用程序可以共享这个队列中的资源。
  • **弹性调度:**如果队列中的资源有剩余或者空闲,可以暂时共享给那些需要资源的队列,一旦该队列有新的应用程序需要资源运行,则其他队列释放的资源会归还给该队列,从而实现弹性灵活分配调度资源,提高系统资源利用率。
  • **多租户管理:**支持多用户共享集群资源和多应用程序同时运行。且可对每个用户可使用资源量(user-limit-factor)设置上限。
  • **安全隔离:**每个队列设置严格的ACL列表(acl_submit_applications),用以限制可以用户或者用户组可以在该队列提交应用程序。

三)Fair Scheduler

Fair Scheduler 是 Facebook 开发的多用户调度器。设计目标是为所有的应用分配「公平」的资源(对公平的定义可以通过参数来设置)。公平不仅可以在队列中的应用体现,也可以在多个队列之间工作。
在 Fair 调度器中,我们不需要预先占用一定的系统资源,Fair 调度器会为所有运行的 job 动态的调整系统资源。如下图所示,当第一个大 job 提交时,只有这一个 job 在运行,此时它获得了所有集群资源;当第二个小任务提交后,Fair 调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。
与Capacity Scheduler不同之处:
image.png

四)源码继承关系

看下面三个图中调度器的继承关系。这三个 Scheduler 都继承自 AbstractYarnScheduler。这个抽象类又 extends AbstractService implements ResourceScheduler。继承 AbstractService 说明是一个服务,实现 ResourceScheduler 是 scheduler 的主要功能。

三者还有一些区别,FairScheduler 没实现 Configurable 接口,少了 setConf() 方法;FifoScheduler 不支持资源抢占,FairScheduler 支持资源抢占却没实现 PreemptableResourceScheduler 接口。
image.png

image.png

image.png

YarnScheduler 中,定义了一个资源调度器应该实现的方法。在 AbstractYarnScheduler 中实现了大部分方法,若自己实现调度器可继承该类,将发开重点放在资源分配实现上。

public interface YarnScheduler extends EventHandler {// 获得一个队列的基本信息public QueueInfo getQueueInfo(String queueName, boolean includeChildQueues,boolean recursive) throws IOException;// 获取集群资源public Resource getClusterResource();/*** AM 和资源调度器之间最主要的一个方法* AM 通过该方法更新资源请求、待释放资源列表、黑名单列表增减*/@Public@StableAllocation allocate(ApplicationAttemptId appAttemptId,List ask, List release,List blacklistAdditions, List blacklistRemovals,List increaseRequests,List decreaseRequests);// 获取节点资源使用情况报告public SchedulerNodeReport getNodeReport(NodeId nodeId);

ResourceScheduler 本质是个事件处理器,主要处理10种事件(CapacityScheduler 还会多处理几种抢占相关的事件),可以到对应 Scheduler 的 handle() 方法中查看这些事件处理逻辑:

  • NODE_ADDED: 集群中增加一个节点
  • NODE_REMOVED: 集群中移除一个节点
  • NODE_RESOURCE_UPDATE: 集群中有一个节点的资源增加了
  • NODE_LABELS_UPDATE: 更新node labels
  • NODE_UPDATE: 该事件是 NM 通过心跳和 RM 通信时发送的,会汇报该 node 的资源使用情况,同时触发一次分配操作。
  • APP_ADDED: 增加一个Application
  • APP_REMOVED: 移除一个application
  • APP_ATTEMPT_ADDED: 增加一个application Attempt
  • APP_ATTEMPT_REMOVED: 移除一个application attempt
  • CONTAINER_EXPIRED: 回收一个超时的container

三、资源调度维度

目前有两种:DefaultResourceCalculatorDominantResourceCalculator

  • DefaultResourceCalculator: 仅考虑内存资源
  • DominantResourceCalculator: 同时考虑内存和 CPU 资源(后续更新中支持更多类型资源,FPGA、GPU 等)。该算法扩展了最大最小公平算法(max-min fairness)。
    • 在 DRF 算法中,将所需份额(资源比例)最大的资源称为主资源,而 DRF 的基本设计思想则是将最大最小公平算法应用于主资源上,进而将多维资源调度问题转化为单资源调度问题,即 DRF 总是最大化所有主资源中最小的
    • 感兴趣的话,可到源码中 DominantResourceCalculator#compare 探究实现逻辑
    • 对应的论文 《Dominant Resource Fairness: Fair Allocation of Multiple Resource Types》

(这里注意!很多文章和书中写的是「YARN 资源调度器默认采用了 DominantResourceCalculator」,实际并不是这样的!)

  • FifoScheduler 默认使用 DefaultResourceCalculator 且不可更改。
  • CapacityScheduler 是在 capacity-scheduler.xml 中配置 yarn.scheduler.capacity.resource-calculator 参数决定的。
  • FairScheduler 才默认使用 DominantResourceCalculator

四、资源抢占模型

这里仅简要介绍资源抢占模型,在后面的文章中会深入源码分析抢占的流程。

  • 在资源调度器中,每个队列可设置一个最小资源量和最大资源量,其中,最小资源量是资源紧缺情况下每个队列需保证的资源量,而最大资源量则是极端情况下队列也不能超过的资源使用量
  • 为了提高资源利用率,资源调度器(包括Capacity Scheduler和Fair Scheduler)会将负载较轻的队列的资源暂时分配给负载重的队列,仅当负载较轻队列突然收到新提交的应用程序时,调度器才进一步将本属于该队列的资源分配给它。

五、总结

本文介绍了 Yarn 资源调度器的基本框架,包括基本架构,以及简要介绍三种 YARN 实现的调度器,并对资源调度维度,资源抢占模型等进行了介绍。
后续文章中将会围绕三种 YARN 调度器,深入源码进行探究。看其在源码中是如何一步步实现对应功能的。


参考文章:
《Hadoop 技术内幕:深入解析 YARN 架构设计与实现原理》第六章
深入解析yarn架构设计与技术实现-资源调度器
Yarn源码分析5-资源调度

相关内容

热门资讯

“强实名”仍一票难求?遏制技术... 暑期来临,演唱会、音乐节、话剧等演出活动热度飙升。无论手速多快,总是一票难求,让众多消费者叫苦不迭。...
上证红利回报指数上涨0.83%... 金融界7月21日消息,上证指数高开高走,上证红利回报指数 (上红回报,H50019)上涨0.83%,...
为啥股票与基金的走势相反? 虚位以待! 平姐姐摄于毛里求斯网红酒店 昨天的文章,标题就很明确,那就是《准备出击》,在半年报不少上...
美加密货币相关法案落地引发三连... 当地时间7月18日,美国总统特朗普在白宫正式签署《指导与建立美国稳定币国家创新法案》(简称《天才法案...
股市必读:湖南黄金(00215... 截至2025年7月21日收盘,湖南黄金(002155)报收于18.33元,上涨2.57%,换手率3....
四川发布六大红色旅游新线路 四川发布六大红色旅游新线路 “锦绣天府·安逸四川”之红色旅游央地媒体联动采访启动 “锦绣天府·安...
北交所上市公司中航泰达大宗交易... 每经讯,2025年7月21日,北交所上市公司中航泰达(836263,收盘价:16.11元)发生一笔大...
金价突然猛拉,重回3400美元... 记者丨叶麦穗 编辑丨曾芳 金珊 7月21日晚,现货黄金突然猛拉大涨,截至22:40,涨超1.5%,站...
嘉实港股互联网产业核心资产混合... AI基金嘉实港股互联网产业核心资产混合A(011924)披露2025年二季报,第二季度基金利润532...
中信证券:特朗普“唱白脸”+贝... 来源:市场资讯 中信证券研究 文|李翀 崔嵘 韦昕澄 贾天楚 当地时间7月14日,美国总统特朗普表示...
机器人ETF易方达(15953... 截至收盘,国证机器人产业指数上涨2.1%,中证装备产业指数上涨1.9%,中证军工指数上涨0.9%,中...
北京工商大学教授吕来明:整治“... 今年以来,治理“内卷式”竞争引发高度关注。从水泥、光伏、汽车到电商,多个领域吹响“反内卷”的号角。 ...
民航局:加快新兴市场布局,提升... 7月21日,在国新办举行的“高质量完成‘十四五’规划”系列主题新闻发布会上,中国民航局局长宋志勇介绍...
二季度券商北交所、新三板业务执... 头部券商优势地位保持稳固,多家中小券商排名大幅跃升 本报记者 于宏 7月18日晚间,北交所、全国股转...
股票行情快报:美新科技(301... 证券之星消息,截至2025年7月21日收盘,美新科技(301588)报收于19.0元,上涨1.39%...
破解中小企业融资难!产业数字金... “中国经济的核心在于产业经济,产业经济离不开金融,产业经济、产业金融都离不开数字技术的赋能,中小企业...
京东美团“暗战”具身智能,战火... 在科技赛道的激烈角逐中,具身智能正成为巨头们争夺的新焦点。王兴之后,刘强东也在具身智能领域强势出击。...
“未来已来”指数涨跌不一,关注... 截至收盘,国证机器人产业指数上涨2.1%,中证新能源指数上涨1.5%,中证人工智能主题指数下跌0.0...
“未来能源”指数上涨,关注新能... 截至收盘,中证上海环交所碳中和指数上涨1.9%,中证光伏产业指数上涨1.6%,中证新能源指数上涨1....