Hive SQL是一种高级语言,用于查询存储在 Hadoop 分布式文件系统(HDFS)的大型数据集。它为分析数据提供了一个类似于 SQL 的接口,并支持 Hadoop 生态系统的 MapReduce 处理框架。本质:将 Hive SQL 转化成 MapReduce 程序。
可以用一张图描述 Hive SQL的执行原理和执行流程,原图请点击下载。
(1)用户提交查询:用户在 Hive SQL client 中提交一个 query ,以从一个或多个表中获取数据。
(2)查询解析:Hive 查询解析器对查询进行解析以验证其语法和结构,并将 SQL 语句转换为内部表示形式(抽象语法树)。如果查询是无效的,就会向用户返回错误信息。
(3)查询优化:Hive 查询优化器对查询进行分析,并生成一个执行计划,使执行查询所需的MapReduce 作业数量最小。优化器会应用一些优化技术,包括谓词下推、选择合适的连接方式(join)、排序算法、列裁剪和桶修剪。
(4)作业提交:执行计划被提交给 JobTracker,它协调
上一篇:C语言 const类型限定符
下一篇:ABC293 vp A-G