[一起学Hive]之五-Hive的视图和分区

2023年2月26日 248次阅读来源: antyzhu

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。

在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。

四、Hive的视图和分区

和关系型数据库一样，Hive中也提供了视图的功能，注意Hive中视图的特性，和关系型数据库中的稍有区别：

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], …) ]

[COMMENT view_comment]

[TBLPROPERTIES (property_name = property_value, …)]

AS SELECT …;

例如：

CREATE VIEW IF NOT EXISTS v_lxw1234 (url COMMENT ‘url’)

COMMENT ‘view lxw1234′

AS SELECT url FROM lxw1234

WHERE url LIKE ‘http://%’

LIMIT 100;

DROP VIEW IF EXISTS v_lxw1234;

ALTER VIEW v_lxw1234 AS

SELECT url FROM lxw1234 limit 500;

更多关于Hive视图的介绍，请参考官方文档：

Hive中的表分区比较简单，就是将同一组数据放到同一个HDFS目录下，当查询中过滤条件指定了某一个分区值时候，只将该分区对应的目录作为Input，从而减少MapReduce的输入数据，提高查询效率。

CREATE EXTERNAL TABLE t_lxw1234 (

id INT,

ip STRING COMMENT ‘访问者IP’,

avg_view_depth DECIMAL(5,1),

bounce_rate DECIMAL(6,5)

) COMMENT ‘lxw的大数据田地-lxw1234.com’

PARTITIONED BY (month STRING, day STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘,’

STORED AS textfile;

在创建表时候，使用PARTITIONED BY关键字来指定该表为分区表，后面括号中指定了分区的字段和类型，分区字段可以有多个，在HDFS中对应多级目录。
比如，上面的表t_lxw1234分区month=’2015-06’,day=’2015-06-15’对应HDFS上的路径为：/user/hive/warehouse/default.db/t_lxw1234/month=2015-06/day=2015-06-15/，当查询中指定了month=’2015-06’ AND day=’2015-06-15’,MapReduce直接从该目录中读取数据，如果只指定了month=’2015-06’，那么MapReduce将/month=2015-06/下所有的子目录都作为Input。