Hadoop 复习 ---- chapter04
admin
2024-05-22 08:45:27
0

Hadoop 复习 ---- chapter04

  1. HDFS 的特性
    1:它是一个分布式文件系统,适用于一次写入,多次读取的场景。
    2:它是一个主从结构体系,由 namenode + datanode + (secondaryNamenode)
    3:namenode : datanode = 1 : n
    4:namenode:负责文件的命名空间
    5:datanode:主要对数据进行存储
    6:secondaryNamenode:是 namenode 的冷备

  2. HDFS 适合对大数据的存储,大数据我们应该如何存储呢?
    大数据的存储我们采用的是分而治之的思想。我们将一个大文件分成若干小文件进行存储。

  3. 那么分成的小文件多大的?
    128M

  4. 一个文件的操作需要两步
    寻址时间 : 传输时间 = 1 : 100 = 10ms : 1s
    我们硬盘的传输速率一般 100M/s

  5. hadoop2.x 默认 block 128M

  6. hadoop3.x 默认 block 64M

  7. 一个集群的最小节点数量 2N+1 n>=1

  8. hadoop 默认有 3 个副本(3 个副本怎么存放呢?)
    机架感知策略
    第一个副本放置在随机的一个机架上的一个节点上。
    第二个副本放置在第一个副本相邻的机架上的任意节点上。
    第三个副本放置在第一个副本的机架的相邻节点上。

  9. namednode:用来管理文件系统的命名空间

  10. namenode 的数据主要包含两部分:内存元数据 + 硬盘元数据
    内存元数据:是真实的,是实时更新的最新的命令空间
    硬盘元数据:是持久化的,序列化的问价。fsimage + edit

  11. 模拟:对命令空间的增加操作
    1:我们在启动 namenode 之前,应该先对 namenode 进行格式化。
    hdfs namenode -format
    2:启动 namenode,start-all.sh,是不是也在启动 datanode,datanode 会主动将他的信息发送给 namenode,所以 namenode 拥有 datanode 的命名空间信息。
    3:我们要添加一个命名空间。
    4:首先将添加操作记录到 edit01 文件中。且同步到 secondaryNamenode(edit 文件只记录事务性操作)
    5:内存元数据真实对命名空间进行操作。这时没内存元数据的数据就是最新数据,如果你要进行查询操作,你是对内存元数据进行的查询操作。
    6:edit01 文件会变得越来越大,我们不希望他越来越大。
    7:secondaryNamenode 设置一个检查带你 checkpoint。
    主要满足下面任意一条件,进行数据合并 fsimage + edit01
    1、edit01 满足一定的大小
    2、edit01 满足一定的存活时间
    8:secondaryNamenode 要进行合并,它会告知 namenode。这时 namenode 会滚动生成一个新的 edit02 文件,后面的所有操作写入到 edit02 文件中。
    9:secondaryNamenode 要进行合并文件 fsimage.check
    10:secondaryNamenode 将文件 fsimage.check 上传到 namenode
    11:namenode 重命名 fsimage.check 为 fsimage,覆盖原有文件。
    剩下的操作重复 3-11 的操作

  12. hadoop.tmp.dir = /opt.hadoop/tmp:存放临时文件的目录

  13. dfs.name.dir = /opt/hadoop/namenode:存放 namenode 信息的目录

  14. dfs.data.dir = /opt/hadoop/datanode:存放 datanode 信息的目录

  15. 所有的 HDFS 通信协议都是构建在 TCP/IP 协议上。
    ClientProtocal:client 和 namenode 之间的通信协议
    datanodeProtatal:datanode 和 namenode 之间的通信协议
    从 ClientProtocol 和 DatanodeProtocol 抽象出来一个远程调用(RPC),在设计上,Namenode 不会主动发起 RPC,而是响应来自客户端和 Datanode 的 RPC 请求。

  16. HDFS 的安全模式
    HDFS:1个 namenode + n个datanode + 1个secondaryNamenode
    我们启动 HDFS 顺序:namenode -> datanode -> secondaryNamenode
    namenode 启动成功,但是 datanode 并未全部启动成功。
    当每个 datanode 启动成功后,会主动的汇报他的信息到 namenode。
    当 namenode 收集到的 datanode 启动的成功率达到 99%。
    namenode 会等待 30s,然后 NameNode 退出安全模式。
    在过程中,NameNode 处于安全模式下,不能修改。

  17. 客户端读取文件的流程。
    读取文件需要使用什么?
    IO 流。我们以前的 IO 流,都是对本地文件的读取。
    那么我们如果对 HDFS 上的文件进行读取呢?
    hadoop 就封装了一个 FSDataInputStream 对象,用于对 HDFS 上的文件的读取。
    hadoop 就封装了一个 FSDataOutputStream 对象,用于对 HDFS 上的文件的写入。

  18. hadoop 会有一些操作指令,那么这些操作指令在哪里呢?
    在 hadoop 的安装包目录下 sbin 和 bin 目录中。

  19. hadoop 组件 = hdfs + mapreduce(yarn)+ common

  20. sbin:放置了 hadoop 组件的启动命令

  21. start-all.sh:启动所有的 hadoop 组件

  22. start-dfs.sh:启动 HDFS 组件 namenode + datanode + secondaryNamenode

  23. start-yarn.sh:启动 yarn 组件 resourceManager + nodeManager

  24. bin:放置了 hadoop 组件的操作命令

  25. hadoop and hdfs 是对 hdfs 进行操作的命令

相关内容

热门资讯

斗金订购APP贵金属期货投资被...   斗金订购APP的投资者被广告宣传给诱导,注册就送什么现金,然后充值返现金卷等等这些宣传方式,都是...
哈易购APP非法期货交易欺骗投...   哈易购APP宣传可做白银铂金贵金属订购交易,但实际上并没有取得相关交易资质!哈易购APP本质上就...
消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...