定义:防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。
通过设置hive.mapred.mode = strict ,可以禁止三种类型的查询:
1)带有分区的表查询
在执行分区表的时候,如果where语句中不包含分区字段过滤条件来限制数据范围,就不允许查询。换句话就是,不允许用户扫描所有的分区。进行这个限制的原因是:通常分区表都拥有非常大的数据集,而且数据增加迅速,如果没有进行分区限制的查询,可能会消耗大量资源来处理这个表。
2)带有order by的查询
使用order by,必要要有limit语句,因为全排序会将结果分发到一个reduce处理,可能会很耗费时间
3)限制笛卡儿积的查询
备注:
Hive的两种索引:
位图索引:普遍用于去重后值比较少的列
紧凑索引:存储每个值的HDFS块号