Hive的表的创建及外部表、分区表介绍

2019年6月7日 225次阅读来源: 心_的方向

创建表的三种方式

第一种创建方式：普通方式(最常用)

创建格式

# 指定标的类型和表的名称
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name 
# 指定每列的名称和类型
  [(col_name data_type [COMMENT col_comment], ...)]
# 对表的说明
  [COMMENT table_comment]
# 指定分区表的列名称，列类型
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
# 指定每列的分隔符、数据类型的类型
  [
   [ROW FORMAT row_format] 
   [STORED AS file_format]
     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)] 
  ]
# 指定数据文件存储在HDFS的什么位置
  [LOCATION hdfs_path]
# 表的属性设置
  [TBLPROPERTIES (property_name=property_value, ...)] 
# 子查询
  [AS select_statement];

示例(创建员工表和部门表)
hive13.png
hive14.png
hive15.png
加载数据
格式：load data [local] inpath ‘filepath’ [overwrite] into table table_name [partition(partcol=val1,partcol2=val2…)]
参数解释：local表示是否从本地文件系统寻找文件，默认的是从hdfs上寻找文件；overwrite表示是否覆盖表中已有的数据。

hive (test_db)> load data local inpath ‘/opt/datas/emp.txt’ overwrite into table emp;

hive (test_db)> load data local inpath ‘/opt/datas/dept.txt’ overwrite into table dept;

《Hive的表的创建及外部表、分区表介绍》 hive16.png

《Hive的表的创建及外部表、分区表介绍》 hive17.png

第二种创健方式：把子查询的结果作为一张新表。适用于需要保存查询的中间结果。

创建格式
与第一种格式相同，需要注意子查询要放在最后。
示例
hive18.png

第三种创建方式：复制另外一个表的结构。

创建格式
create table tablename1 like tablename2;创建表1而且和表2 的表结构和属性完全一样，但是不复制表2中的数据，所以表1的数据为空。
示例
hive19.png
hive20.png

Hive两种表类型

如果在创建表时不指定external关键字，则默认的是创建管理表(内部表)，内部表对应的目录必须存储在hive的数据仓库中。

《Hive的表的创建及外部表、分区表介绍》 hive21.png

还有一种表是指定external关键字的表，即外部表，外部表的数据文件可以自己指定目录（不在局限于hive数据仓库中），指定对的目录下面的数据文件及为这个表的数据文件。

如何创建外部表。location指定的是hdfs上的目录，该目录表示的是这个外部表目录，这个目录下的文件即为这个表的数据文件。
hive22.png

内部表和外部表的区别

执行删除表命令操作时，对于内部表，会删除元数据和存储的数据，而对于外部表只会删除元数据库里的元数据信息，而不会删除存储的数据。这样可以防止多个部门同时使用一个表时，一个部门删除数据文件导致其他部门不能使用的情况。方便共享数据。
内部表默认存储在数据仓库中，而外部表一般通过location自己指定目录，便于存放在仓库外。

Hive分区表

为什么有分区表？
如果把一年或者一个月的日志文件存放在一个表下，那么数据量会非常的大，当查询这个表中某一天的日志文件的时候，查询速度还非常的慢，这时候可以采用分区表的方式，把这个表根据时间点再划分为小表。这样划分后，查询某一个时间点的日志文件就会快很多，因为这是不需要进行全表扫描。
hive中的分区表
hive中的分区是根据“分区列”的值对表的数据进行粗略的划分，hive中一个表对应一个目录，再根据分区列在这个表目录下创建子目录，每个子目录名就是分区列的名字。分区列定义与表中字段相似，但是与表中的字段无关，是独立的列。这样就加快了数据查询的速度，因为不会对这个表中进行全盘扫描了。
示例