本文是
如何快速成为数据分析师的第十一篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉数据库,大可不必再看这篇文章,或只挑选部分。
我们在上一篇《SQL,从入门到熟练》文章已经掌握了除Join外的常用语法和函数,今天会通过一系列的练习彻底掌握SQL。
我们知道,数据库由多张表组成,表与表之间可以实现关联。
<img src=”https://pic1.zhimg.com/v2-98c230040e9ef9fb3701ad5d620c0910_b.jpg” data-rawwidth=”431″ data-rawheight=”356″ class=”origin_image zh-lightbox-thumb” width=”431″ data-original=”https://pic1.zhimg.com/v2-98c230040e9ef9fb3701ad5d620c0910_r.jpg”>
上图就是一个简单的关联模型:
Students.addressId = Address.id
Students.id = Scores.studentId
Scores.courseId = Courses.id
那么,如何在SQL查询语句中将两个表联接起来?我们将运用最重要的语法Join。
select * from Students
join Address on Students.addressId = Address.id
上面语句,join将Students和Address两表关联,关联需要一个或多个字段作为联接桥梁。例子中的桥梁就是addressid,我们使用on语句,将Students表的addressId字段和Address的id字段匹配。
这里需要注意的是,因为字段可能重名,所以一旦使用了Join,字段前应该加上表名,如Students.addressId和Address.id ,这种用法是为了字段的唯一性,否则遇到重名,系统不知道使用哪个字段,就会报错。
select * from Students as s
join Address as a on s.addressId = a.id
上图是更优雅的写法,将表命名为一个缩略的别名,避免了语句过于冗余。不要使用拼音做别名,不是好习惯。
Join语法有很多不同的变形,Left Join,Outer Join等,新人很容易混淆。这个我们可以用数学中的交集和并集掌握。
<img src=”https://pic4.zhimg.com/v2-01bda82322de6ba4e7ea411bf27427f3_b.jpg” data-rawwidth=”991″ data-rawheight=”689″ class=”origin_image zh-lightbox-thumb” width=”991″ data-original=”https://pic4.zhimg.com/v2-01bda82322de6ba4e7ea411bf27427f3_r.jpg”>
上图很清晰地解释了各Join语法。
Inner Join最常见,叫做内联接,可以缩写成Join,找的是两张表共同拥有的字段。
Left Join叫做左联接,以左表(join符号前的那张表)为主,返回所有的行。如果右表有共同字段,则一并返回,如果没有,则为空。
我们以W3School上的数据为例:
<img src=”https://pic3.zhimg.com/v2-66f8c61faa87bfafd6218b7b480e6592_b.png” data-rawwidth=”1456″ data-rawheight=”794″ class=”origin_image zh-lightbox-thumb” width=”1456″ data-original=”https://pic3.zhimg.com/v2-66f8c61faa87bfafd6218b7b480e6592_r.png”>
select Persons.LastName, Persons.FirstName, Orders.OrderNo
from Persons
left join Orders on Persons.Id_P=Orders.Id_P
order by Persons.LastName
于是输出结果为:
<img src=”https://pic2.zhimg.com/v2-3e9c69975ea43c87571a0981c28c2d4d_b.png” data-rawwidth=”1464″ data-rawheight=”364″ class=”origin_image zh-lightbox-thumb” width=”1464″ data-original=”https://pic2.zhimg.com/v2-3e9c69975ea43c87571a0981c28c2d4d_r.png”>
结果集中,Bush那一行的OrderNo为空,就是因为Id_P无法匹配上,返回了Null。如果改成Inner join,则不会返回整个Bush所在行。这是Inner Join和Left Join的区别,也是面试中经常会问到的题目。
Right Join和Left Join没有区别,A Left Join B 等价于 B Right Join A。
Full Join叫做全联接,也叫做Full Outer Join,意思是不管有的没的,只要存在,就返回。
还是以之前的例子演示,下面是Full Join:
<img src=”https://pic4.zhimg.com/v2-0f55df70ecd04bda809186f00a20050f_b.png” data-rawwidth=”1452″ data-rawheight=”424″ class=”origin_image zh-lightbox-thumb” width=”1452″ data-original=”https://pic4.zhimg.com/v2-0f55df70ecd04bda809186f00a20050f_r.png”>
最后两行就是所谓的「不管有的没的,只要存在字符串,就返回」的结果,它们Id_P并没有匹配上,但还是给出了返回,只是为空字段不同。
这三者的关系,我们可以理解为:A Full Join B = A Left Join B + A Right Join B – A Inner Join B,这就是数学上的集合运算,虽然SQL的表并不能加减法。如果还一知半解,看最上面的Join示例图,用面积的角度看也明白了。
通过上面的例子,我们已经掌握了Join的主流语法,其他无非是变种。比如加约束条件 where XX is null,这里的XX可以是结果为空的字段。拿上文Left Join的例子演示:
select Persons.LastName, Persons.FirstName, Orders.OrderNo
from Persons
left join Orders
on Persons.Id_P=Orders.Id_P
where Orders.Id_P is Null
最终返回的结果就是Bush这一行。
当我们有多个字段要匹配时,on后面可以通过 and 进行多项关联。
select * from A
join B on A.name = B.name and A.phone = B.phone
上图就是一个简单的适用场景,将用户姓名和手机号进行多项关联。它也可以加入其他的条件判断。
select * from A
join B on A.name = B.name and A.phone = B.phone and B.sex = '男'
我们再加一个and,将B表的用户性别限定为男。这种用法等价于where B.sex = ‘男’。当数据量大到一定程度,通过这种约束条件,能优化查询性能。
到这里,SQL的常用语法已经讲解的差不多了,我们进行实战吧。http://leetcode.com网站是知名的算法竞赛题,去上面刷SQL吧。
注册完后进入http://leetcode.com/problemset/database页面。那里有几道MySQL题目。因为时间关系,我只讲解Join相关,大家有兴趣可以刷其他题,都不难的。SQLZoo也能刷,就是页面丑了点,所以我十分感动地拒绝了它。
<img src=”https://pic3.zhimg.com/v2-a79f07e503b4aec41fe02a978e56ece2_b.png” data-rawwidth=”1872″ data-rawheight=”1038″ class=”origin_image zh-lightbox-thumb” width=”1872″ data-original=”https://pic3.zhimg.com/v2-a79f07e503b4aec41fe02a978e56ece2_r.png”>
我们从Easy开始,选择题目Combine Two Tables。
<img src=”https://pic4.zhimg.com/v2-46ddc7885603ef979de02b6e33583ef3_b.png” data-rawwidth=”1340″ data-rawheight=”892″ class=”origin_image zh-lightbox-thumb” width=”1340″ data-original=”https://pic4.zhimg.com/v2-46ddc7885603ef979de02b6e33583ef3_r.png”>
红色字符是表名,第一列是字段名,第二列是数据类型。题目希望我们通过两张表输出:FirstName, LastName, City, State四个字段。
单纯的Left Join就能完成了。记住噢,答案需要完全一致,也就是说最终的结果必须是四个字段,不能多不能少,顺序也不能乱,大小写要严格。这一题大家自己做吧。通过后会有个绿色的Accepted提示。
接下来选择Medium难度的Department Highest Salary。
<img src=”https://pic2.zhimg.com/v2-b69396c8db0cb012326cb63e68375f59_b.png” data-rawwidth=”1758″ data-rawheight=”786″ class=”origin_image zh-lightbox-thumb” width=”1758″ data-original=”https://pic2.zhimg.com/v2-b69396c8db0cb012326cb63e68375f59_r.png”>
这里有两张表,员工表和部门表,我们希望找出各个部门的最高薪水。
部门信息单独为一张表,首先我们需要Join关联起来,将部门分组求出最大值:
select d.Id, #这是部门ID
d.Name as Name, #这是部门名字
max(e.Salary) as Salary #这是最高薪水
from Department d
join Employee e
on e.DepartmentId = d.Id
group by d.Id
上述的查询语句找出了最高薪水的部门,我们是否能直接使用其作为答案?不能。这里有一个逻辑的小陷阱,当最高薪水非单个时,使用max会只保留第一个,而不是列举所有,所以我们需要更复杂的查询。
因为已经有了各部门最高薪水的数据,可以将它作为一张新表,用最高薪水关联雇员表,获得我们最终的答案。
<img src=”https://pic4.zhimg.com/v2-be364d2fa0aefe8c6c2b4408d3422177_b.png” data-rawwidth=”1662″ data-rawheight=”664″ class=”origin_image zh-lightbox-thumb” width=”1662″ data-original=”https://pic4.zhimg.com/v2-be364d2fa0aefe8c6c2b4408d3422177_r.png”>
上面就是最终解法(#是解释给你们看的,中文会报错的),当然解法应该不是唯一的,大家有兴趣可以继续研究。
最终,我们选Hard模式的Department Top Three Salaries。
范例数据没有一丁点变化,它需要我们求出各部门薪水前三的数据。如果最高薪水只有两个,则输出两个。
<img src=”https://pic2.zhimg.com/v2-700bde5adf21548f3f889a212fb91e11_b.png” data-rawwidth=”1354″ data-rawheight=”392″ class=”origin_image zh-lightbox-thumb” width=”1354″ data-original=”https://pic2.zhimg.com/v2-700bde5adf21548f3f889a212fb91e11_r.png”>
上图是给的范例结果。
排名前三的数据,我们可以使用order by 降序排列出来,然后通过limit 限定为3,但是新的问题是:既要各部门前三,也存在排名并列的情况。此时order by就无能为力了。
如果是SQL Server或者Oracle,我们可以使用row_number分组排序函数,但是MySQL没有,其中的一种思路是利用set语法设置变量,间接应用row_number。我们还能使用另外一种思路。
select * from Employee as e
where (
select count(distinct e1.Salary)
from Employee e1
where e1.Salary > e.Salary
and e1.DepartmentId = e.DepartmentId
) < 3
上述的例子巧妙地借用了子查询。在where语句中,我们用子表e1与父表(外表)e进行比对。SQL是允许子查询的表和父查询的表进行运算的。
e1.DepartmentId = e.DepartmentId作为条件约束,避免跨部门。e1.Salary > e.Salary则是逻辑判断,通过count函数,逐行计算出e表中有多少薪水比e1的薪水低。
&amp;amp;amp;lt;img src=”https://pic1.zhimg.com/v2-9fe05a4c88292e065bbb47fc51ee7074_b.png” data-rawwidth=”1734″ data-rawheight=”688″ class=”origin_image zh-lightbox-thumb” width=”1734″ data-original=”https://pic1.zhimg.com/v2-9fe05a4c88292e065bbb47fc51ee7074_r.png”&amp;amp;amp;gt;
因为e1表和e表实际上是等价的。所以返回的count(distinct e1.Salary) 代表e1表有中多少薪水比e表的高,上图的例子,答案是2(90000和85000比它高)。如果是0,则代表e表中该行薪水最高(没有比它高的),1代表第二高,2代表第三高。于是便过滤出Top 3的薪水。最后通过join计算出结果。
&amp;amp;amp;lt;img src=”https://pic4.zhimg.com/v2-84012053f5a70b0edb832f2b58b3e8af_b.png” data-rawwidth=”1708″ data-rawheight=”538″ class=”origin_image zh-lightbox-thumb” width=”1708″ data-original=”https://pic4.zhimg.com/v2-84012053f5a70b0edb832f2b58b3e8af_r.png”&amp;amp;amp;gt;
在实际查询过程中,不建议大家使用这种运算方式,因为运算效率不会快。其实换我,我更可能group by后导出结果用Excel处理。
到这里,大家对Join已经有一个大概的了解了吧。真实的数据查询场景中,Join会用到很多,业务复杂用五六个Join也是常态,如果算上各类逻辑处理,SQL代码行数可以破百。这时候,考验的就是熟练度了。
SQL只要多加训练,并不是一门很难掌握的语言。除了技巧,还要看你对业务表的熟悉程度,一般公司发展大了,百来张表很正常,各类业务逻辑各种Join,各字段的含义,这是同样要花费时间的苦功夫。
希望大家对SQL已经有一个初步的掌握了。SQL学好了,以后应用大数据的Hive和SparkSQL也是轻而易举的。
接下来,我们将要进入第五周的大魔王课程,统计学,从入门到放弃,哈哈哈。
——————
欢迎关注我的个人公众号:tracykanc