Hadoop 复习 ---- chapter04
admin
2024-05-22 08:45:27
0

Hadoop 复习 ---- chapter04

  1. HDFS 的特性
    1:它是一个分布式文件系统,适用于一次写入,多次读取的场景。
    2:它是一个主从结构体系,由 namenode + datanode + (secondaryNamenode)
    3:namenode : datanode = 1 : n
    4:namenode:负责文件的命名空间
    5:datanode:主要对数据进行存储
    6:secondaryNamenode:是 namenode 的冷备

  2. HDFS 适合对大数据的存储,大数据我们应该如何存储呢?
    大数据的存储我们采用的是分而治之的思想。我们将一个大文件分成若干小文件进行存储。

  3. 那么分成的小文件多大的?
    128M

  4. 一个文件的操作需要两步
    寻址时间 : 传输时间 = 1 : 100 = 10ms : 1s
    我们硬盘的传输速率一般 100M/s

  5. hadoop2.x 默认 block 128M

  6. hadoop3.x 默认 block 64M

  7. 一个集群的最小节点数量 2N+1 n>=1

  8. hadoop 默认有 3 个副本(3 个副本怎么存放呢?)
    机架感知策略
    第一个副本放置在随机的一个机架上的一个节点上。
    第二个副本放置在第一个副本相邻的机架上的任意节点上。
    第三个副本放置在第一个副本的机架的相邻节点上。

  9. namednode:用来管理文件系统的命名空间

  10. namenode 的数据主要包含两部分:内存元数据 + 硬盘元数据
    内存元数据:是真实的,是实时更新的最新的命令空间
    硬盘元数据:是持久化的,序列化的问价。fsimage + edit

  11. 模拟:对命令空间的增加操作
    1:我们在启动 namenode 之前,应该先对 namenode 进行格式化。
    hdfs namenode -format
    2:启动 namenode,start-all.sh,是不是也在启动 datanode,datanode 会主动将他的信息发送给 namenode,所以 namenode 拥有 datanode 的命名空间信息。
    3:我们要添加一个命名空间。
    4:首先将添加操作记录到 edit01 文件中。且同步到 secondaryNamenode(edit 文件只记录事务性操作)
    5:内存元数据真实对命名空间进行操作。这时没内存元数据的数据就是最新数据,如果你要进行查询操作,你是对内存元数据进行的查询操作。
    6:edit01 文件会变得越来越大,我们不希望他越来越大。
    7:secondaryNamenode 设置一个检查带你 checkpoint。
    主要满足下面任意一条件,进行数据合并 fsimage + edit01
    1、edit01 满足一定的大小
    2、edit01 满足一定的存活时间
    8:secondaryNamenode 要进行合并,它会告知 namenode。这时 namenode 会滚动生成一个新的 edit02 文件,后面的所有操作写入到 edit02 文件中。
    9:secondaryNamenode 要进行合并文件 fsimage.check
    10:secondaryNamenode 将文件 fsimage.check 上传到 namenode
    11:namenode 重命名 fsimage.check 为 fsimage,覆盖原有文件。
    剩下的操作重复 3-11 的操作

  12. hadoop.tmp.dir = /opt.hadoop/tmp:存放临时文件的目录

  13. dfs.name.dir = /opt/hadoop/namenode:存放 namenode 信息的目录

  14. dfs.data.dir = /opt/hadoop/datanode:存放 datanode 信息的目录

  15. 所有的 HDFS 通信协议都是构建在 TCP/IP 协议上。
    ClientProtocal:client 和 namenode 之间的通信协议
    datanodeProtatal:datanode 和 namenode 之间的通信协议
    从 ClientProtocol 和 DatanodeProtocol 抽象出来一个远程调用(RPC),在设计上,Namenode 不会主动发起 RPC,而是响应来自客户端和 Datanode 的 RPC 请求。

  16. HDFS 的安全模式
    HDFS:1个 namenode + n个datanode + 1个secondaryNamenode
    我们启动 HDFS 顺序:namenode -> datanode -> secondaryNamenode
    namenode 启动成功,但是 datanode 并未全部启动成功。
    当每个 datanode 启动成功后,会主动的汇报他的信息到 namenode。
    当 namenode 收集到的 datanode 启动的成功率达到 99%。
    namenode 会等待 30s,然后 NameNode 退出安全模式。
    在过程中,NameNode 处于安全模式下,不能修改。

  17. 客户端读取文件的流程。
    读取文件需要使用什么?
    IO 流。我们以前的 IO 流,都是对本地文件的读取。
    那么我们如果对 HDFS 上的文件进行读取呢?
    hadoop 就封装了一个 FSDataInputStream 对象,用于对 HDFS 上的文件的读取。
    hadoop 就封装了一个 FSDataOutputStream 对象,用于对 HDFS 上的文件的写入。

  18. hadoop 会有一些操作指令,那么这些操作指令在哪里呢?
    在 hadoop 的安装包目录下 sbin 和 bin 目录中。

  19. hadoop 组件 = hdfs + mapreduce(yarn)+ common

  20. sbin:放置了 hadoop 组件的启动命令

  21. start-all.sh:启动所有的 hadoop 组件

  22. start-dfs.sh:启动 HDFS 组件 namenode + datanode + secondaryNamenode

  23. start-yarn.sh:启动 yarn 组件 resourceManager + nodeManager

  24. bin:放置了 hadoop 组件的操作命令

  25. hadoop and hdfs 是对 hdfs 进行操作的命令

相关内容

热门资讯

疑似新模型海外惊艳!智谱再度飙... 格隆汇2月10日|延续昨日强势,港股市场AI概念股今日再度集体走强,其中,“全球大模型第一股”智谱(...
原创 特... 特朗普上任已逾一年,他推行的关税政策像一阵狂风,搅动了全球的经贸秩序。对于美国经济的未来走向,诺贝尔...
原创 一... 2026年2月9日晚的美股市场,上演了一场让很多投资者既兴奋又意外的行情。 本以为大涨之后总要歇一歇...
电商领域侵权问题获关注,知识产... 2月10日,知识产权保护概念持续拉升,截至发稿,成分股读客文化(301025.SZ)、中文在线(30...
原创 1... 12艘满载着俄罗斯乌拉尔原油的超级油轮,正像一群迷路的巨鲸,散落在从马六甲海峡到中国南海的广阔水域里...
凯思凯迪完成近5亿融资:中平资... 雷递网 乐天 2月10日 凯思凯迪宣布近期完成近5亿元新一轮融资,本轮融资由中平资本领投,国寿资本、...
美国出现小米YU7测试车?雷军... 近日,网上传出小米YU7 MAX测试车出现在美国道路的消息,难不成小米汽车要进军美国市场了? 事实...
2026-2032年中国食糖行... 共研网发布的《2026-2032年中国食糖行业深度调研与市场调查预测报告》共十二章。首先介绍了食糖行...
原创 美... 特朗普上台后不久,便对进口产品挥起了关税大棒。从钢铝到汽车零部件,一系列严苛的关税政策自2025年春...
盘中必读|字节旗下Seedan... 2月10日,AI短剧概念延续强势,荣信文化(301231)、捷成股份(300182)、欢瑞世纪(00...
2月25日起预约!申请退税别错... 近日,国家税务总局发布通告,明确2025年度个人所得税综合所得汇算清缴办理时间为2026年3月1日至...
再迎反弹!现货黄金重回5000... 贵金属再迎反弹。 2月9日,黄金、白银价格同步拉升。现货黄金再次突破关键阻力位,重回5000美元/盎...
YU7现身加州高速,小米会不会... 2月10日,雷军发文: 前段时间,一辆YU7行驶在美国加州的高速公路上,挂着当地的测试车牌。 很多人...
宁波迎来开年第一股!爱芯元智港... 转自:东南财金 2月10日,爱芯元智(0600.HK)正式于港交所主板挂牌上市,成为港股边缘计算AI...
2026年春节档新片预售票房已... 2月10日,市场早盘窄幅震荡,三大指数小幅下跌,北证50指数盘中跌超1%。沪深两市半日成交额1.39...
原创 俄... 俄罗斯黄金大量涌入中国,这背后究竟隐藏了怎样的玄机?根据2025年海关的数据,单单实物净进口量就高达...
亚太药业:聘任邱中勋为公司总经... 每经AI快讯,亚太药业2月9日晚间发布公告称,因公司控制权已发生变更,根据《股份转让协议》约定等相关...
原创 中... 我们中国的女富豪中,不乏靠着刻苦努力一步步爬上顶端的典型,也有不少依靠精准眼光与幸运投资一跃而成的成...
黄金交易提醒:美元疲软+央行“... 汇通财经APP讯——2026年2月的第二个星期,全球金融市场的心脏,似乎正随着那剧烈跳动。金价在50...
多措并举推动投资止跌回稳 国家统计局数据显示,2025年,全国固定资产投资同比下降3.8%。分领域看,基础设施投资下降2.2%...