在数据库上实现每3秒最多只插入一条记录

2023年2月13日 186次阅读来源: littlersmall

由于下游的流量限制，经常有这样的需求，每一段时间只能有固定量的请求。多于的流量会造成服务不可用，或高延时。所以需要在上游做一些拥塞的控制，于是就有了如题的需求。
我们将这个问题简化一下，假设数据库表里只有两个字段：
————
1 id(自增)
2 time
————
我们需要实现的是，在大量插入请求过来时，每3秒最多只有一条记录写成功。
对分析过程不敢兴趣的同学，可以直接跳到最后的结论部分。

注：本例在mysql中实现。
建表语句如下：

create table test (
    id int not null auto_increment, 
    time int not null, 
    primary key (`id`));

默认为innodb。

第一版
最开始的实现是这样的。分为两步，第一步获得当前的max time，之后判断要插入的行的time是否大于max time，如果大于，则将本行的时间修改为time+3，再插入，伪代码大概是这样的：

begin; //开启事务
1 select max(time) max_time from test;

2 if cur_time > max_time:
    insert into test(id, time) values(my_id, cur_time + 3);
end;

但是这样会有问题，我们知道mysql的select是不加锁的，是基于mvcc的读。所以如果同时来两个请求，它们在第一步拿到相同的max_time，都认为可以继续执行步骤2，最后导致都执行成功。这和我们题目要求的每3秒最多插入一条不符合，因此该方案不可取。

第二版
由于同一个3秒内只能成功一条，我们自然的想到通过unique_key的方式来实现。首先在time字段上增加unique索引，如下：

create unique index unique_time on test(time);

之后我们将用户需要插入的时间按3秒取整，比如用户插入的时间是4，按3秒取整后是3，如果是6，按3秒取整后是6
3->3
4->3
5->3
6->6
7->6
….
这样之后，两个用户同时来，第一步获得max(time)，都可以更新，但在第二步，由于有unique_key的存在，只有一个会成功。伪代码大概是这样的：

begin;
1 select max(time) max_time from test;

2 if round(cur_time, 3) > max_time:
    insert into test(id, time) values(my_id, round(cur_time, 3);
end;

初看上去，是挺好的一个解决方案，我们将一个连续的长时间段，按段映射为了一个个固定的时间值，从数轴上看，每一段只能有一条记录成功。好像已经完美的解决了需求。但是，考虑这样一种情况：
系统内最大时间初始为0
第5秒的时候来了一个请求，取整为3，更新成功。
第6秒的时候又来了一个请求，取整为6，更新成功。
但是，这之间的更新间隔只有1秒。换句话说，这种方案只满足了平均意义上的没每3秒插入一条，但是没有解决严格的每3秒插入一条这个条件。所以还是不行的。

第三版
有了前面两种失败的方案做铺垫，我们自然的想到把这两种方案结合一下。继续在unique_key上做文章，但是这次，我们将time的更新策略变一下，如果满足插入条件，直接插入max_time + 3，伪代码如下：

begin;
1 select max(time) max_time from test;

2 if cur_time > max_time:
    insert into test(id, time) values(my_id, max_time + 3);
end;

这样已经可以满足题目中的要求了。
其实在细细想一下，好像，还是有问题。
假设当前max(time)为6，5秒之后，来了一个请求，cur_time为11，之后max_time被更新为6+3 = 9，1秒之后又来了个请求，12 > 9，再次更新成功。
所以这个方案还是不可行的。

结论：

第四版
有了前面的失败经验，这次，我们将unique_key从time上取下来，在数据库里单独增加一列dup_id，如下：

alter table test add column dup_id int not null;
create unique index unique_dup_id on test(dup_id);

然后伪代码如下：

begin;
1 select max(time) max_time, max(dup_id) max_dup_id from test;

2 if (cur_time > max_time):
    insert into test (id, time, dup_id) values(my_id, cur_time + 3, max_dup_id + 1)
end;

其实这两步操作完全没必要放在一个事务中，可以写成独立的两条语句。
如下：

1 select max(time) max_time, max(dup_id) max_dup_id from test;

2 if (cur_time > max_time):
    insert into test (id, time, dup_id) values(my_id, cur_time + 3, max_dup_id + 1)

第五版(简化版)
如果还是觉得添加一列蛮复杂，有一种简单一些的方案，使用事务来完成，主体思路是将max(time)锁起来，伪代码如下：

begin;
1 select max(time) max_time from test for update;

2 if (cur_time > max_time):
    insert into test(id, time) values(my_id, cur_time+3);
end;

这种for update的方式需要注意：
1 time需要有索引，如果没有索引，则锁全表
2 当time上有索引时，锁[max_time, +∞](间隙锁)，锁住一个范围

    原文作者：littlersmall
    原文地址: https://www.jianshu.com/p/3695f2be9651
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。