喂?xxx吗?你们的服务怎么回事,机器又挂掉啦~!
啊?挂掉几台了?
你们借的40台挂了两台啦!
骚等,我看看咋回事!
服务器又冒烟了~~~原因是这样的:
前段时间项目迎来七夕高峰,有一个接口的SQL本来长这样:
mysql> explain SELECT *,sum(num) AS sum FROM search WHERE search_time >= '2016-08-30' AND type = 0 AND state = 1 GROUP BY keyword ORDER BY sum DESC LIMIT 50;
+----+-------------+-----------+------+--------------------------+------+---------+-------+--------+----------------------------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-----------+------+--------------------------+------+---------+-------+--------+----------------------------------------------+
| 1 | SIMPLE | search | ref | type,search_time,keyword | type | 2 | const | 651114 | Using where; Using temporary; Using filesort |
+----+-------------+-----------+------+--------------------------+------+---------+-------+--------+----------------------------------------------+
search_time
,type
,state
都建了索引,type
和state
取值范围有限,所以基本没啥用,主要是靠search_time
,但是explain
的结果表示并没有用到有效索引,实际情况下表里有130w+
数据的时候这个语句跑起来平均耗时5s
多,这肯定是不能忍受的。
那强制索引怎么样?试试看:
mysql> explain SELECT *,sum(num) AS sum FROM search FORCE INDEX (search_time) WHERE search_time >= '2016-08-30' AND type = 0 AND state = 1 GROUP BY keyword ORDER BY sum DESC LIMIT 50;
+----+-------------+-----------+-------+---------------------+-------------+---------+------+--------+---------------------------------------------------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-----------+-------+---------------------+-------------+---------+------+--------+---------------------------------------------------------------------+
| 1 | SIMPLE | search | range | search_time,keyword | search_time | 4 | NULL | 290616 | Using index condition; Using where; Using temporary; Using filesort |
+----+-------------+-----------+-------+---------------------+-------------+---------+------+--------+---------------------------------------------------------------------+
有效果,rows
降到29w
,照理说在29w里面怎么查都不会太慢,但是都知道explain
里的rows
只是个参考,实际跑起来还是花了3s
多,也是不能忍受的。
这台数据库的机器同时还跑其他业务,都是量级较大的,服务器负载本来就不低,七夕还没到,就因为这条sql把服务器搞的直冒烟,本业务慢查询也拖慢了其他业务的执行时间导致连锁反应。
之前已经对数据的读取部分加了缓存,但是日志记录还是显示某段时间内产生大量的慢查询请求。开始我们怀疑是缓存失效,但后来发现,其实是高并发导致在设置缓存阶段,由于sql语句执行时间太长,导致在这5秒内造成大量数据库慢查询。
直接说解决方案吧:
缩小查询范围,由之前的查询
3天
改为查询1天
,量级降到130w+
数据。强制使用索引,一定程度上缩短查询时间。
写个脚本,定时将查询结果保存到
memcache
里,这个主要是防止高并发情况下,等待写入mc时造成短时间大量数据库访问。对数据库读取结果做缓存。
对接口结果做缓存。
做了这5步工作,妈妈再也不用担心我的服务器会冒烟啦~~
注:后面会慢慢把其他blog移到这里来,以后主要在这写啦。