大数据-学习实践-5企业级解决方案
创始人
2025-05-29 02:33:48
0

大数据-学习实践-5企业级解决方案

(大数据系列)

文章目录

  • 大数据-学习实践-5企业级解决方案
    • 1知识点
    • 2具体内容
      • 2.1小文件问题
        • 2.1.1 SequenceFile
        • 2.1.2 MapFile
        • 2.1.3 小文件存储计算
      • 2.2数据倾斜
      • 2.3 YARN
        • 2.3.1 YARN架构
        • 2.3.2 YARN调度器
        • 2.3.2 YARN多资源队列配置和使用
      • 2.4Hadoop官方文档
      • 2.5总结
    • 3待补充
    • 4Q&A
    • 5code
    • 6参考

1知识点

  • 小文件问题
  • 小文件存储计算
  • 数据倾斜
  • YARN
  • Hadoop官方

2具体内容

2.1小文件问题

MapReduce框架针对大数据文件设计,小文件处理效率低下,消耗内存资源

  • 每个小文件在NameNode都会占用150字节的内存,每个小文件都是一个block
  • 一个block产生一个inputsplit,产生一个Map任务
  • 同时启动多个map任务消耗性能,影响MapReduce执行效率

2.1.1 SequenceFile

  • SequenceFile是二进制文件,直接将对序列化到文件
  • 对小文件进行文件合并:文件名为k,文件内容为v,序列化到大文件
  • 但需要合并文件的过程,文件大且合并后的文件不便查看,需要遍历查看每个小文件
  • 读、写试验
  • SequenceFile在hdfs上合并为一个文件

2.1.2 MapFile

  • 排序后的MapFile,包括index和data
  • index为文件的数据索引,记录每个record的key值,并保存该record在文件中的偏移位
  • 访问MapFile时,索引文件被加载到内存,通过索引映射关系快速定位到指定Record所在文件位置
  • 相对SequenceFile而言,MapFile的检索效率是高效的,缺点是会消耗一部分内存来存储index数据
  • MapFile在hdfs上包括2个文件,index和data

2.1.3 小文件存储计算

使用SequenceFile实现小文件存储计算

  • java开发,生成SequenceFile;(人工将一堆小文件处理成一个较大文件,进行MapReduce计算)
  • 开发MapReduce(借助底层),读取Sequencefile,进行分布式计算

2.2数据倾斜

  • 一般不对Map任务进行改动,但为了提高效率,可增加Reduce任务,需要对数据分区
  • job.getPartitionerClass()实现分区
  • 当MapReduce程序执行时,大部分Reduce节点执行完毕,但有一个或几个Reduce节点运行很慢,导致整个程序处理时间变长,表现为Reduce节点卡着不动
    • 倾斜不严重,可增加Reduce任务个数
job.setNumReduceTasks(Integer.parseInt(args[2]));
  • 倾斜严重,要把倾斜数据打散(抽样确定哪一类,打散)
String key = words[0];
if ("5".equals(key)) {//把倾斜的key打散,分成10份key = "5" + "_" + random.nextInt(10);
}

2.3 YARN

2.3.1 YARN架构

  • 集群资源的管理和调度,支持主从架构,主节点最多2个,从节点可多个
  • ResourceManager:主节点负责集群资源分配和管理
  • NodeManager:从节点负责当前机器资源管理
  • YARN主要管理内存和CPU两种资源
  • NodeManager启动向ResourceManager注册,注册信息包含该节点可分配的CPU和内存总量
  • 默认单节点:(yarn-site.xml文件中设置)
    • yarn.nodemanager.resourece.memory-mb:单节点可分配物理内存总量,默认8Mb*1024,8G
    • yarn.nodemanager.resource.cpu-vcores:单节点可分配的虚拟CPU个数,默认是8

2.3.2 YARN调度器

  • FIFO Scheduler 先进先出
  • Capacity Scheduler FIFO Scheduler 多队列版本(常用)
  • Fair Scheduler 多队列,多用户共享资源

2.3.2 YARN多资源队列配置和使用

  1. 增加online队列和offline队列
    • 修改 capacity-scheduler.xml 文件,并同步其他节点
yarn.scheduler.capacity.root.queuesdefault,online,offlineThe queues at the this level (root is the root queue).

yarn.scheduler.capacity.root.default.capacity70Default queue target capacity.

yarn.scheduler.capacity.root.online.capacity10Online queue target capacity.

yarn.scheduler.capacity.root.offline.capacity20Offline queue target capacity.

yarn.scheduler.capacity.root.default.maximum-capacity70The maximum capacity of the default queue.

yarn.scheduler.capacity.root.online.maximum-capacity10The maximum capacity of the online queue.

yarn.scheduler.capacity.root.offline.maximum-capacity20The maximum capacity of the offline queue.

- 重新启动
stop-all.sh
start-all.sh
  1. 向offline队列提交MR任务
    • online队列里面运行实时任务
    • offline队列里面运行离线任务
#解析命令行通过-D传递参数,添加至conf;也可修改java程序解析各参数
String[] remainingArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
Job job = Job.getInstance(conf);
job.setJarByClass(WordCountJobQueue.class);#必须有,否则集群执行时找不到wordCountJob这个类
#重新编译上传执行
hadoop jar db_hadoop-1.0-SNAPSHOT-jar-with-dependencies.jar com.imooc.mr.WordCountJobQueue -Dmapreduce.job.queue=offline /test/hello.txt /outqueue

2.4Hadoop官方文档

  • 官方文档
  • 在CDH中的使用
  • 在HDP中的使用
    -(1080端口) Ambari组件,提供web界面

2.5总结

  • MapReduce
    • 原理
    • 计算过程
    • 执行步骤
    • wordcount案例
    • 日志查看:开启YARN日志聚合,启动historyServer进程
    • 程序扩展:去掉Reduce
    • Shuffle过程
  • 序列化
    • Writable实现类
    • 特点
  • 源码分析
    • InputFormat
    • OutputFormat
  • 性能优化
    • 小文件
    • 数据倾斜
  • YARN
    • 资源管理:内存+CPU
    • 调度器:常用CapacityScheduler

3待补充

4Q&A

5code

6参考

  • 大数据课程资料

相关内容

热门资讯

银价推涨光伏组件报价,下游企业... 来源:第一财经 受成本端银价上涨影响,本周光伏组件价格再次上调。据行业机构Infolink Cons...
黄金史诗级暴跌,原因可能与一纸... 当地时间1月30日,随着美联储前理事凯文·沃什(Kevin Warsh)正式被美国总统特朗普提名为下...
深圳国资七亿下场扫货白石洲? 来源:市场资讯 (来源:深圳房产在线) 最近看到,近日一则消息引发关注,就是今年1月发生一宗白石洲大...
国投智能2025业绩承压 AI... 来源:财联社 财联社1月30日讯(记者 方彦博)2025年,AI应用的商业化落地是众多AI企业面临的...
原创 男... 在爱情的海洋中,星座的波涛有时能揭示出隐藏的情感暗流。当男人在愤怒的风暴中显露出四种迹象时,或许他并...
农业银行董事长谷澍会见英格兰银... 来源:市场资讯 来源:中国农业银行 1月29日,农业银行董事长谷澍会见了英格兰银行副行长兼英国审慎监...
“易中天”,业绩大爆发!需求增... “易中天”2025年度业绩持续爆发! 1月30日晚间,中际旭创发布2025年度业绩预告,预计2025...
双平台战略提速:仙乐健康谋“A... 中国营养健康食品行业的龙头企业仙乐健康,在1月30日向市场投下了一枚重磅消息:公司已正式向香港联交所...
左季庆染指淳厚基金股权纷争为谁... 2026年1月6日,证监会一纸批复核准上海长宁国有资产经营投资有限公司(下称“长宁国资”)成为淳厚基...
上市即巅峰?拉芳家化首度亏损,... 为什么消费端对“拉芳”爱不起来了? 作者 | 方璐 编辑丨于婞 来源 | 野马财经 拉芳家化(603...
原创 黄... 1月31日晚间,英伟达CEO黄仁勋现身中国台湾台北市砖窑古早味怀旧餐厅,宴请了35位与英伟达合作的供...
山西太钢不锈钢股份有限公司 2... 来源:证券日报 证券代码:000825 证券简称:太钢不锈 公告编号:2026-001 本公司及董...
把自己的银行贷款出借给别人,有... 新京报讯(记者张静姝 通讯员邸越洋)因贷款出借后未被归还,原告牛女士将被告杨甲、杨乙诉至法院,要求二...
金价暴跌,刚买的金饰能退吗?有... 黄金价格大跌,多品牌设置退货手续费。 在过去两三天,现货黄金价格经历了“过山车”般的行情,受金价下跌...
预计赚超2500万!“豆腐大王... 图片来源:图虫创意 在经历了一年亏损后,“豆腐大王”祖名股份(003030.SZ)成功实现扭亏为盈。...
特朗普提名“自己人”沃什执掌美... 据新华社报道,当地时间1月30日,美国总统特朗普通过社交媒体宣布,提名美国联邦储备委员会前理事凯文·...
爱芯元智将上市:连年大额亏损,... 撰稿|多客 来源|贝多商业&贝多财经 1月30日,爱芯元智半导体股份有限公司(下称“爱芯元智”,HK...
一夜之间,10只A股拉响警报:... 【导读】深康佳A等10家公司昨夜拉响退市警报 中国基金报记者 夏天 1月30日晚间,A股市场迎来一波...
谁在操控淳厚基金?左季庆为谁趟... 2026年1月6日,证监会一纸批复核准上海长宁国有资产经营投资有限公司(下称“长宁国资”)成为淳厚基...
工商银行党委副书记、行长刘珺会... 人民财讯1月31日电,1月29日,工商银行党委副书记、行长刘珺会见来访的上海电气集团党委书记、董事长...