Hadoop 复习 ---- chapter04
admin
2024-05-22 08:45:27
0

Hadoop 复习 ---- chapter04

  1. HDFS 的特性
    1:它是一个分布式文件系统,适用于一次写入,多次读取的场景。
    2:它是一个主从结构体系,由 namenode + datanode + (secondaryNamenode)
    3:namenode : datanode = 1 : n
    4:namenode:负责文件的命名空间
    5:datanode:主要对数据进行存储
    6:secondaryNamenode:是 namenode 的冷备

  2. HDFS 适合对大数据的存储,大数据我们应该如何存储呢?
    大数据的存储我们采用的是分而治之的思想。我们将一个大文件分成若干小文件进行存储。

  3. 那么分成的小文件多大的?
    128M

  4. 一个文件的操作需要两步
    寻址时间 : 传输时间 = 1 : 100 = 10ms : 1s
    我们硬盘的传输速率一般 100M/s

  5. hadoop2.x 默认 block 128M

  6. hadoop3.x 默认 block 64M

  7. 一个集群的最小节点数量 2N+1 n>=1

  8. hadoop 默认有 3 个副本(3 个副本怎么存放呢?)
    机架感知策略
    第一个副本放置在随机的一个机架上的一个节点上。
    第二个副本放置在第一个副本相邻的机架上的任意节点上。
    第三个副本放置在第一个副本的机架的相邻节点上。

  9. namednode:用来管理文件系统的命名空间

  10. namenode 的数据主要包含两部分:内存元数据 + 硬盘元数据
    内存元数据:是真实的,是实时更新的最新的命令空间
    硬盘元数据:是持久化的,序列化的问价。fsimage + edit

  11. 模拟:对命令空间的增加操作
    1:我们在启动 namenode 之前,应该先对 namenode 进行格式化。
    hdfs namenode -format
    2:启动 namenode,start-all.sh,是不是也在启动 datanode,datanode 会主动将他的信息发送给 namenode,所以 namenode 拥有 datanode 的命名空间信息。
    3:我们要添加一个命名空间。
    4:首先将添加操作记录到 edit01 文件中。且同步到 secondaryNamenode(edit 文件只记录事务性操作)
    5:内存元数据真实对命名空间进行操作。这时没内存元数据的数据就是最新数据,如果你要进行查询操作,你是对内存元数据进行的查询操作。
    6:edit01 文件会变得越来越大,我们不希望他越来越大。
    7:secondaryNamenode 设置一个检查带你 checkpoint。
    主要满足下面任意一条件,进行数据合并 fsimage + edit01
    1、edit01 满足一定的大小
    2、edit01 满足一定的存活时间
    8:secondaryNamenode 要进行合并,它会告知 namenode。这时 namenode 会滚动生成一个新的 edit02 文件,后面的所有操作写入到 edit02 文件中。
    9:secondaryNamenode 要进行合并文件 fsimage.check
    10:secondaryNamenode 将文件 fsimage.check 上传到 namenode
    11:namenode 重命名 fsimage.check 为 fsimage,覆盖原有文件。
    剩下的操作重复 3-11 的操作

  12. hadoop.tmp.dir = /opt.hadoop/tmp:存放临时文件的目录

  13. dfs.name.dir = /opt/hadoop/namenode:存放 namenode 信息的目录

  14. dfs.data.dir = /opt/hadoop/datanode:存放 datanode 信息的目录

  15. 所有的 HDFS 通信协议都是构建在 TCP/IP 协议上。
    ClientProtocal:client 和 namenode 之间的通信协议
    datanodeProtatal:datanode 和 namenode 之间的通信协议
    从 ClientProtocol 和 DatanodeProtocol 抽象出来一个远程调用(RPC),在设计上,Namenode 不会主动发起 RPC,而是响应来自客户端和 Datanode 的 RPC 请求。

  16. HDFS 的安全模式
    HDFS:1个 namenode + n个datanode + 1个secondaryNamenode
    我们启动 HDFS 顺序:namenode -> datanode -> secondaryNamenode
    namenode 启动成功,但是 datanode 并未全部启动成功。
    当每个 datanode 启动成功后,会主动的汇报他的信息到 namenode。
    当 namenode 收集到的 datanode 启动的成功率达到 99%。
    namenode 会等待 30s,然后 NameNode 退出安全模式。
    在过程中,NameNode 处于安全模式下,不能修改。

  17. 客户端读取文件的流程。
    读取文件需要使用什么?
    IO 流。我们以前的 IO 流,都是对本地文件的读取。
    那么我们如果对 HDFS 上的文件进行读取呢?
    hadoop 就封装了一个 FSDataInputStream 对象,用于对 HDFS 上的文件的读取。
    hadoop 就封装了一个 FSDataOutputStream 对象,用于对 HDFS 上的文件的写入。

  18. hadoop 会有一些操作指令,那么这些操作指令在哪里呢?
    在 hadoop 的安装包目录下 sbin 和 bin 目录中。

  19. hadoop 组件 = hdfs + mapreduce(yarn)+ common

  20. sbin:放置了 hadoop 组件的启动命令

  21. start-all.sh:启动所有的 hadoop 组件

  22. start-dfs.sh:启动 HDFS 组件 namenode + datanode + secondaryNamenode

  23. start-yarn.sh:启动 yarn 组件 resourceManager + nodeManager

  24. bin:放置了 hadoop 组件的操作命令

  25. hadoop and hdfs 是对 hdfs 进行操作的命令

相关内容

热门资讯

盘前:科技股热潮降温 纳指期货... 来源:环球市场播报 周五,美国股指期货下跌。科技股走弱、美国国债收益率上升拖累大盘。科技板块近期大...
600096,拟投建1000万... 今日(5月15日),三大股指均收跌,全市场成交额为3.37万亿元,较上一个交易日缩量179亿元。收盘...
原创 应... 当地时间5月14日美股盘后,半导体设备达成应用材料(Applied Materials)公布了202...
歌手温岚被紧急送入ICU,主办... 歌手温岚原定于5月16日在上海举办巡回演唱会。15日,有消息称温岚因身体不适被紧急送医,随后,演唱会...
闪迪、美光越涨越便宜?股价暴涨... 存储芯片需求的爆炸式增长正在颠覆传统估值逻辑——股价越涨,闪迪和美光反而越便宜。 闪迪今年以来股价累...
监管部门“5·15”密集发声,... 监管新规密集发布,投资者保护防线再加固。 5月15日,证监会在北京举办2025年“5·15全国投资者...
纳指、标普500指数续创新高!... 美股三大指数集体收涨,纳指涨0.88%,标普500指数涨0.77%,道指涨0.75%。其中,纳指、标...
欧洲主要股指收盘集体下跌 英国富时100指数跌1.71%,法国CAC40指数跌1.72%,德国DAX30指数跌2.11%,富时...
巴宝莉去年扭亏盈利近两亿元,进... 英国奢侈品牌Burberry巴宝莉公布截至3月28日的2026财年业绩,释放明显复苏信号。集团营收同...
腾澎投资拟减持巨人网络不超3%... 巨人网络公告显示,公司控股股东一致行动人、第二大股东上海腾澎投资合伙企业(有限合伙)(下称“腾澎投资...
医疗健康领域投融资日报(5月1... 据亿欧数据统计,昨日(2026年5月14日)共披露23起投融资事件,涉及15家国内企业,8家国外企业...
债市ETF“工具箱”,解锁固收... 当前,市场波动有所加大,不确定性因素较多,单一资产投资模式难以有效应对市场起伏,引入固收类资产、优化...
招商蛇口股东会通过博时蛇口产园... 观点网讯:5月15日,招商蛇口2026年第一次临时股东会在公司总部会议室召开,会议由董事长朱文凯主持...
《学习时报》刊文:全球海洋可再... 海洋可再生能源一般指蕴藏于海水水面、水体及海床之中,可转化为电能的清洁能源类型,主要包括海上风能、潮...
数据看盘游资、量化抢筹多只机器... 沪深股通今日合计成交4353.39亿,其中澜起科技和中际旭创分居沪股通和深股通个股成交额首位。板块主...
土耳其BIST-100指数下跌... 土耳其BIST-100指数下跌1.8%,主要银行指数下跌2.4%。 来源:金融界AI电报
15分钟动态电价时代:园区光伏... 一、电价改革的“加速度”:从分时计费到现货波动 过去,工商业用户的电价表一年可能只调整几次,峰、平、...
湘潭上元产业港:多套成交 12... 湘潭上元产业港再迎成交热潮,近期3套优质厂房成功签约,多位企业家携手落子,以实力见证长株潭热土的产业...
4月新增人民币贷款跌入负区间,... 本报(chinatimes.net.cn)记者刘佳 北京报道 作为观察货币政策传导效率的核心窗口,4...
2.2/7.2馆展位图首发!5... 【2.2馆展位图】 【7.2馆展位图】 Bakery china 2.2馆部分 企业推介 22B...