MySQL 线上数据库清理数据的方法

 

01 场景分析

今天下午,开发的同事提来一个需求,需要在线上要删除一些数据记录,简单看了看数据的分布,大概是要删除数据表中的两千七百多万条记录,数据表的总记录是两千八百多万,也就是说,要删除的记录占了总记录的绝大部分比重,两千七百多万的数据记录,要是删除的话,使用的时间是相当长的,对线上的业务肯定会造成影响。这里将实际的应用案例简单重构为以下方法:

mysql> select date,count(*) from test.tbl_a  group by date;
+----------+----------+
|   date | count(*) |
+----------+----------+
| |  63103 |
| 20190118 | |
| |  125916 |
| 20190120 |   |
| |  129198 |
| 20190122 |  |
| | 5191247 |
+----------+----------+
rows in set (13.21 sec)

上面就是重构之后的表的结构,我们可以看到,test数据库中的表tbl_b按照date分组之后,每个组的数据量都不小,而我们的需求是将date为20190118和20190123的记录删除,可以看到这两种记录总计有两千多万条,占了表中数据的绝大部分,如果直接删除的话,线上的业务肯定会受到阻塞。

以下是操作方法,需要注意的是,应用下面的操作方法的前提是:

要删除的数据占了数据表中的绝大部分。

 

02 操作办法

通过分析,知道剩余的表数据对于全表来说是很小的一部分,这个操作我们分为4步:

1.我们先把剩余的数据存入到另外一个数据库test1中:

create table test1.tbl_b_new as 
select * from test.tbl_b 
where date in(,,,,);

这个操作的时间只有3s左右;

2.我们在test1数据库中创建一个同名的表tbl_b,它的结构和test数据库中的tbl_b数据结构一致:

create table test1.tbl_b like test.tbl_b;

3.紧接着,我们使用数据库中的rename操作将表test中的表tbl_b和test1中的表tbl_b进行交换,等价于将test数据库中的表所有数据清除。

RENAME TABLE test.tbl_b  TO test1.tbl_b_bak,
       test1.tbl_b  TO test.tbl_b,
       test1.tbl_b_bak TO test1.tbl_b;

4.再讲第一步保存的剩余数据填充到新表中来,如下:

insert into test.tbl_b select * from  test1.tbl_b_new;

 

03 结果分析

看上去我们好像把问题搞复杂了,直接删除的事情,被我们搞的多了好几个步骤,但是实际上不是这样的,这一套操作可以帮我们节省好几分钟时间,对线上业务的影响也更小,原因如下:

  1. 我们使用create table as的方法创建剩余的数据表,这种方法使我们仅对数据表中的少部分数据进行了操作。避免了我们对过多的数据进行扫描。
  2. mysql中对大表进行rename的操作,rename命令会直接修改底层的.frm文件,所以它的速度是相当之快的。

第二个特点给我们提供了一种思路,在一个很着急的业务中,要使用一个表的时候,往往不给我们留充足的时间备份表,如果我们想要删除一个大表里面的数据,而且需要进行相关备份,我们可以通过rename操作迅速处理,然后再想办法去备份rename之后的表。

上面的例子中使用create table as 和create table like两种克隆表的方式,有几点需要注意:

create table like方式会完整地克隆表结构,但不会插入数据,需要单独使用insert into或load data方式加载数据
create table as 方式会部分克隆表结构,完整保留数据

如果有兴趣,可以做做试验进行验证。

以上就是MySQL 线上数据库清理数据的方法的详细内容,更多关于MySQL 线上数据库清理数据的资料请关注编程宝库其它相关文章!

MySQL 线上日志库迁移实例: 说说最近的一个案例吧,线上阿里云RDS上的一个游戏日志库最近出现了一点问题,随着游戏人数的增加,在线日志库的数据量越来越大,最新的日志库都已经到50G大小了,在线变更的时间非常长。 之前之所以没有发现,是因 ...