在数据库上实现每3秒最多只插入一条记录

由于下游的流量限制,经常有这样的需求,每一段时间只能有固定量的请求。多于的流量会造成服务不可用,或高延时。所以需要在上游做一些拥塞的控制,于是就有了如题的需求。
我们将这个问题简化一下,假设数据库表里只有两个字段:
————
1 id(自增)
2 time
————
我们需要实现的是,在大量插入请求过来时,每3秒最多只有一条记录写成功。
对分析过程不敢兴趣的同学,可以直接跳到最后的结论部分。

注:本例在mysql中实现。
建表语句如下:

create table test (
    id int not null auto_increment, 
    time int not null, 
    primary key (`id`));

默认为innodb。

第一版
最开始的实现是这样的。分为两步,第一步获得当前的max time,之后判断要插入的行的time是否大于max time,如果大于,则将本行的时间修改为time+3,再插入,伪代码大概是这样的:

begin; //开启事务
1 select max(time) max_time from test;

2 if cur_time > max_time:
    insert into test(id, time) values(my_id, cur_time + 3);
end;

但是这样会有问题,我们知道mysql的select是不加锁的,是基于mvcc的读。所以如果同时来两个请求,它们在第一步拿到相同的max_time,都认为可以继续执行步骤2,最后导致都执行成功。这和我们题目要求的每3秒最多插入一条不符合,因此该方案不可取。

第二版
由于同一个3秒内只能成功一条,我们自然的想到通过unique_key的方式来实现。首先在time字段上增加unique索引,如下:

create unique index unique_time on test(time);

之后我们将用户需要插入的时间按3秒取整,比如用户插入的时间是4, 按3秒取整后是3, 如果是6,按3秒取整后是6
3->3
4->3
5->3
6->6
7->6
….
这样之后,两个用户同时来,第一步获得max(time),都可以更新,但在第二步,由于有unique_key的存在,只有一个会成功。伪代码大概是这样的:

begin;
1 select max(time) max_time from test;

2 if round(cur_time, 3) > max_time:
    insert into test(id, time) values(my_id, round(cur_time, 3);
end;

初看上去,是挺好的一个解决方案,我们将一个连续的长时间段,按段映射为了一个个固定的时间值,从数轴上看,每一段只能有一条记录成功。好像已经完美的解决了需求。但是,考虑这样一种情况:
系统内最大时间初始为0
第5秒的时候来了一个请求,取整为3,更新成功。
第6秒的时候又来了一个请求,取整为6,更新成功。
但是,这之间的更新间隔只有1秒。换句话说,这种方案只满足了平均意义上的没每3秒插入一条,但是没有解决严格的每3秒插入一条这个条件。所以还是不行的。

第三版
有了前面两种失败的方案做铺垫,我们自然的想到把这两种方案结合一下。继续在unique_key上做文章,但是这次,我们将time的更新策略变一下,如果满足插入条件,直接插入max_time + 3,伪代码如下:

begin;
1 select max(time) max_time from test;

2 if cur_time > max_time:
    insert into test(id, time) values(my_id, max_time + 3);
end;

这样已经可以满足题目中的要求了。
其实在细细想一下,好像,还是有问题。
假设当前max(time)为6,5秒之后,来了一个请求,cur_time为11,之后max_time被更新为6+3 = 9,1秒之后又来了个请求,12 > 9,再次更新成功。
所以这个方案还是不可行的。

结论:

第四版
有了前面的失败经验,这次,我们将unique_key从time上取下来,在数据库里单独增加一列dup_id,如下:

alter table test add column dup_id int not null;
create unique index unique_dup_id on test(dup_id);

然后伪代码如下:

begin;
1 select max(time) max_time, max(dup_id) max_dup_id from test;

2 if (cur_time > max_time):
    insert into test (id, time, dup_id) values(my_id, cur_time + 3, max_dup_id + 1)
end;

其实这两步操作完全没必要放在一个事务中,可以写成独立的两条语句。
如下:

1 select max(time) max_time, max(dup_id) max_dup_id from test;

2 if (cur_time > max_time):
    insert into test (id, time, dup_id) values(my_id, cur_time + 3, max_dup_id + 1)

第五版(简化版)
如果还是觉得添加一列蛮复杂,有一种简单一些的方案,使用事务来完成,主体思路是将max(time)锁起来,伪代码如下:

begin;
1 select max(time) max_time from test for update;

2 if (cur_time > max_time):
    insert into test(id, time) values(my_id, cur_time+3);
end;

这种for update的方式需要注意:
1 time需要有索引,如果没有索引,则锁全表
2 当time上有索引时,锁[max_time, +∞](间隙锁),锁住一个范围

    原文作者:littlersmall
    原文地址: https://www.jianshu.com/p/3695f2be9651
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞