hadoop-Yarn资源调度器【尚硅谷】
创始人
2025-05-29 04:20:26
0

大数据学习笔记

Yarn资源调度器

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行与操作系统之上的应用程序
(也就是负责MapTask、ReduceTask等任务分配资源)

1. Yarn基本架构

Yarn主要由ResourceManager、NodeManager、ApplicationMaster、Container。
1)ResourceManager(RM)主要作用:

  • 处理客户端请求
  • 监控NodeManager
  • 启动或监控ApplicationMaster
  • 资源的分配与调度
    2)NodeManager(NM)主要作用如下:
  • 管理单个节点上的资源
  • 处理来自ResourceManager的命令
  • 处理来自ApplicationMaster的命令
    3)ApplicationMaster(AM)作用:
  • 负责数据的切分
  • 为应用程序申请资源并分配给内部的任务
  • 任务的监控和容错
    4)Container
    Container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等

2. Yarn工作机制

(1)MR程序提交到客户端所在的节点。
(2)YarnRunner向ResourceManager申请一个Application。
(3)RM将该应用程序的资源路径返回给YarnRunner。
(4)该程序将运行所需资源提交到HDFS上。
(5)程序资源提交完毕后,申请运行mrAppMaster。
(6)RM将用户的请求初始化成一个Task。
(7)其中一个NodeManager领取到Task任务。
(8)该NodeManager创建容器Container,并产生MRAppmaster。
(9)Container从HDFS上拷贝资源到本地。
(10)MRAppmaster向RM 申请运行MapTask资源。
(11)RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(12)MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
(13)MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
(14)ReduceTask向MapTask获取相应分区的数据。
(15)程序运行完毕后,MR会向RM申请注销自己。
在这里插入图片描述

3. Yarn作业提交全过程

第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
第2步:Client向RM申请一个作业id。
第3步:RM给Client返回该job资源的提交路径和作业id。
第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
第5步:Client提交完资源后,向RM申请运行MrAppMaster。
(2)作业初始化
第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
第7步:某一个空闲的NM领取到该Job。
第8步:该NM创建Container,并产生MRAppmaster。
第9步:下载Client提交的资源到本地。
(3)任务分配
第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(4)任务运行
第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
第14步:ReduceTask向MapTask获取相应分区的数据。
第15步:程序运行完毕后,MR会向RM申请注销自己。
(5)进度和状态更新
YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
(6)作业完成
除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。
在这里插入图片描述

4. 资源调度器

目前,hadoop作业调度主要有三种:FIFO(先进先出)、Capacity Scheduler(容量调度 【默认】)、Fair Scheduler(功能调度)。

FIFO调度:
在这里插入图片描述
容量调度器:
在这里插入图片描述

  • 支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略
  • 为了防止同一用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占资源量进行限定
  • 首先,计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值,选择一个该比值最小的队列——最闲的
  • 其次,按照作业优先级和提交时间顺序,同时考虑用户资源量限制和内存限制对队列任务排序
  • 三个队列同时按照队列先后顺序执行。

公平调度器(并发度比较大)
在这里插入图片描述

支持多队列多用户,每个队列中的资源可以配置,同一队列中的作用公平共享队列中所有资源。

任务的推测执行

如果一个任务长时间运行不完,而且拖慢整个机制,那么就可以用到推测执行机制。
推测执行机制:发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。
1)每一个Task只能有一个备份任务
2)当前job已完成的Task必须不小于5%
3)开启推测执行参数设置

不能使用推测执行机制的情况:
1)任务间存在严重的负载均衡
2)特殊任务,比如任务向数据库中写数据

推测执行算法原理
1)MR总是选择差值最大的任务,并为之启动备份任务。
2)为了防止大量任务同时启动备份任务造成的资源浪费,MR为每个作业设置了同时启动的备份任务数量上限。
3)推测执行机制实际上采用了经典的优化算法:以空间换时间
在这里插入图片描述

MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点:

  1. 计算机性能:CPU、内存、磁盘健康、网络
  2. I/O操作优化
    1)数据倾斜
    2)Map和Reduce数设置不合理
    3)Map运行时间太长,导致reduce等待过久
    4)小文件过多
    5)大量的不可分块的超大文件
    6)Spill次数过多
    7)Merge次数过多等。

Map阶段优化
1)减少溢写次数
2)减少合并次数
3)在Map之后,不影响业务逻辑前提下,先进行Combine处理,减少I/O。
在这里插入图片描述
reduce阶段优化
1) 合理设置Map和reduce数
2)设置Map、reduce共存:调整slowstart.completedmaps参数,是map运行到一定程度后,reduce也开始运行,减少reduce的等待时间。
3)规避使用reduce(减少了shuffle)。
4)合理设置reduce buffer
在这里插入图片描述
在这里插入图片描述
I/O传输
1)采用数据压缩的方式
2)使用SequenceFile二进制文件
在这里插入图片描述
数据倾斜问题
方法1:抽样和范围分区
方法2:自定义分区
方法3:Combine
方法4:采用Map Join,尽量避免reduce join
在这里插入图片描述

相关内容

热门资讯

FIBA期待杨瀚森表现 最新实... 北京时间6月25日消息,FIBA国际篮联公布了最新一期世界杯预选赛亚太区球队实力榜,中国男篮排在澳大...
收评:创业板指放量反弹涨2.8... 市场冲高回落后,再度震荡拉升。黄白线分化明显,权重股走势较强。量能明显放大,沪深两市成交额3.59万...
巨头财报引爆A股存储芯片板块,... 当地时间6月24日美股盘后, 美光科技(MU.US)公布截至5月31日的2026财年第三财季财报,业...
银行、消金公司助贷余额增速不得... 近日,中国证券报记者从多位业内人士处独家获悉,5月以来,多地金融监管部门对部分中小银行、消金公司下达...
朱鸿接任陈航,担任钉钉科技有限... 消费日报-今朝新闻讯 天眼查显示,6月23日,钉钉科技有限公司发生工商变更,陈航卸任法定代表人、董事...
3日累跌超20%,德创环保:公... 6月25日, 德创环保(603177.SH)公告,公司股票于2026年6月23日、6月24日和6月2...
北京发布2026年第七轮拟供商... 央广网北京6月25日消息(记者门庭婷)6月25日,北京市规划和自然资源委员会网站发布了2026年第七...
开放麦 | 启明创投胡奇:从A... “2026年,创投圈的浪潮再次翻涌:AI从技术概念走进产业深水区,硬科技创业从“小众赛道” 变成“主...
腾讯孙忠怀:在行业转身处 6月24日,2026腾讯视频年度发布在上海举行。腾讯公司副总裁、腾讯在线视频董事长孙忠怀以《在行业转...
加息,突变!美联储,重磅传来!... 美联储政策路径突生变数。 美国商务部经济分析局最新公布的数据显示,5月个人消费支出(PCE)物价指数...
6月合肥上门收金必看!5步避坑... 2026年6月,合肥黄金市场持续高位运行,不少市民翻出家里闲置的旧金饰、投资金条想变现,上门回收因为...
潮汕女富豪挂帅后加码液冷!祥鑫... 潮汕女强人,带着百亿公司加码液冷散热。 6月24日晚间,祥鑫科技(002965.SZ)公告称,公司董...
马斯克向太空要电,GobiX ... 一场关于「去哪里找电」的全球竞赛,正在朝两个方向展开。 作者|周永亮 编辑| 郑玄 「太空光伏是不是...
原料药行业陷入周期低谷 有药企... 每经记者|许立波 每经编辑|魏文艺 “过完年到现在,我们整个团队每个月都在出差,跑遍了亚非拉、欧美市...
家门口筛查白内障!永顺泽家镇暖... 大众卫生报·新湖南客户端6月25日讯(通讯员 彭雪姣)为切实解决辖区老年性白内障患者异地就医奔波、就...
终于等到!油价马上再大跌,这个... 点击添加图片描述(最多60个字) 编辑 各位车主朋友,好消息接二连三! 继6月18日油价大幅下调...
丈量出海新路 世界酒庄影响力指... 长期以来,全球酒庄评价体系由西方机构主导,且大多局限于单一酒种、单一评价维度,这一局面正逐渐被打破。...
峰瑞资本创始合伙人李丰:从资本... “2026年,创投圈的浪潮再次翻涌:AI从技术概念走进产业深水区,硬科技创业从“小众赛道” 变成“主...
原创 A... 迈向成熟,还有茁壮成长的机会。 作者 | 方璐 编辑丨于婞 来源 | 野马财经 2026年6月21日...
为企业解锁出海新通道!亚太中小... 6月24日下午,作为2026年APEC中小企业工商论坛的重要组成部分,亚太中小企业国际化合作发展论坛...