SQL or Hive SQL基础易忽视知识点整理(1)

引言
目前实习阶段,工作中用到最多的是hive sql。以前没有发现,sql,代码也可写的十分优雅,有一些知识点不容小觑,把这些知识点整理如下:

1.where和on条件的区别

使用left join时,原理简单的可以描述为先将左边的主表结果集查询出来,然后遍历主表结果集,对于每一条主表数据都会根据on后的条件去查询从表,查到了就拿出从表中需要的数据,查不到就为空。
也就是说on后的条件仅仅是针对从表数据进行筛选的。这样即使筛选不到也不影响最终的结果集数量。
而筛选条件放在where之后,就是对总的结果集进行筛选了。
On在where条件之前执行,因此效率比where略高

执行过程:

《SQL or Hive SQL基础易忽视知识点整理(1)》 表1表2

两条SQL:
1、select * from tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’

2、select * from tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)

第一条SQL的过程:

《SQL or Hive SQL基础易忽视知识点整理(1)》 第一条sql执行过程

第二条SQL的过程:

《SQL or Hive SQL基础易忽视知识点整理(1)》 第二条sql执行过程

总结:
其实以上结果的关键原因就是left join,right join,full join的特殊性,不管on上的条件是否为真都会返回left或right表中的记录,full则具有left和right的特性的并集。 而inner jion没这个特殊性,则条件放在on中和where中,返回的结果集是相同的。

2、 union和union all 区别

Union:对两个结果集进行并集操作,不包括重复行(即删除重复项),同时进行默认规则的排序

Union All:对两个结果集进行并集操作,包括重复行(即不删除重复项)不进行排序
测试:
(1)s1,s2两个表的内容

《SQL or Hive SQL基础易忽视知识点整理(1)》 表内容

(2)union结果

《SQL or Hive SQL基础易忽视知识点整理(1)》 union结果

(3)union all结果

《SQL or Hive SQL基础易忽视知识点整理(1)》 union all结果

3、 join & left outer join & Cross join

(1)Join 默认为inner join

(2)Left join
做连接时,最好满足右表到左表 数量递增

思考一个问题:
多表做关联时,执行顺序是怎样的?
比如 a join b join c,是a与b先做关联,然后再与C表做关联吗?

答案:
如果只是join(即内连接,等同于inner join),则这里表的顺序是没有要求的,但如果是left join或right join则是有顺序要求的

(3)Cross join(交叉连接) 笛卡尔积

交叉连接。交叉连接返回左表中的所有行,左表中的每一行与右表中的所有行组合。交叉连接也称作笛卡尔积。
简单查询两张表组合,这是求笛卡儿积,效率最低

笛卡儿积:笛卡尔乘积,也叫直积。假设集合A={a,b},集合B={0,1,2},则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)}。可以扩展到多个集合的情况。类似的例子有,如果A表示某学校学生的集合,B表示该学校所有课程的集合,则A与B的笛卡尔积表示所有可能的选课情况。

笛卡尔积出现的三种情况

1)交叉连接(显式)

查询学生的信息,其中包括学生ID,学生姓名和专业名称。

SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students CROSS JOIN Majors

查询结果:

《SQL or Hive SQL基础易忽视知识点整理(1)》 查询结果

2)查询多表

其实也是笛卡儿积,与CROSS JOIN等价,以下查询同上述结果一样。

这种情况也查询了两张表中所有组合的全集。

SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students,Majors

3)加了查询条件

注意:在使用CROSS JOIN关键字交叉连接表时,因为生成的是两个表的笛卡尔积,因而不能使用ON关键字,只能在WHERE子句中定义搜索条件。

SELECT Students.ID,Students.Name,Majors.Name AS MajorName FROM Students CROSS JOIN Majors WHERE Students.MajorID = Majors.ID

《SQL or Hive SQL基础易忽视知识点整理(1)》 查询结果

查询结果与INNER JOIN一样,但是其效率就慢很多了

4、 hive 中常用的 时间格式的相互转换

(1)时间戳格式——》日期型

from_unixtime(cast(pay_time / 1000 as bigint), 'yyyy-MM-dd') as pay_time

:/1000是因为。只取时间戳格式数据前13位即可

可实现时间戳格式——》日期时间

(2)日期时间型——》日期型

To_date()函数

(3)日期时间>>>>>>年/月/日/时/分/秒

year(string date),month(),day(),hour(),minute(),second()

原文参考链接:

时间格式转化 https://blog.csdn.net/shuangshaung_/article/details/53611188
union & union all https://blog.csdn.net/qq_33326449/article/details/53079082
where & on https://blog.csdn.net/wb_snail/article/details/79235219
join, left join,cross join https://blog.csdn.net/scythe666/article/details/51881235

以上是目前遇到的几个问题的总结,未完待续、、、、

    原文作者:向花开阳阳
    原文地址: https://www.jianshu.com/p/cba714c7f20f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞