MySQL亿级数据的查询优化-历史表该如何建

2024-02-03 05:06:01
开发
28

前端时间在知乎上看到一个问题，今天有空整理并测试了一下：

这个问题很具体，所以还是可以去尝试优化一下，我们基于InnoDB并使用自增主键来讲。

比较简单的做法是将历史数据存放到另一个表中，与最近的数据分开。那是不是历史表随便建就行了？其实这里的区别很大：

先讲一下优化思路：如果数据量太大（远远超过内存），对于批量查询来说单纯的添加索引作用不大，需要将数据按照查询重新组织降低查询需要的IO次数。

首先拿一组数据来分析一下，如果采用自增ID，数据按写入顺序存储在磁盘上，数据在磁盘上的分布情况大体如下：

如果把用户1的所有数据都查询出来，并且这些数据页都不在内存的情况下，需要执行3次IO。

但是，只要将数据整理一下，同一个用户的数据顺序存放，即数据的组织方式如下：

查询用户1的所有数据，并且这些数据页都不在内存的情况下，只需要执行1次IO即可。

在这个场景中，通常一次读取几百条到上千条积分变化数据，性能差异还是非常明显的。

现在的问题是：怎么让数据的组织是顺序的？其实很简单，只需要在转储时将一个用户的所有数据一起转储（也就是相邻写入，这样他们存储在磁盘上也是相邻的）。

附：这里我们设计一个场景分别测试一下这两种情况的性能差别。

使用下面的语句创建两个表：

CREATE TABLE t_score_log_1
(
  `id` bigint AUTO_INCREMENT,
  `user_id` int,
  `score` int,
  `log_time` datetime,
  PRIMARY KEY(`id`),
  KEY `idx_user_id`(`user_id`)
);

CREATE TABLE t_score_log_2
(
  `id` bigint AUTO_INCREMENT,
  `user_id` int,
  `score` int,
  `log_time` datetime,
  PRIMARY KEY(`id`),
  KEY `idx_user_id`(`user_id`)
) ;

然后，创建两个存储过程用于向两个表中插入数据：

DELIMITER $
CREATE PROCEDURE insert_proc_1()
BEGIN
  DECLARE i INT DEFAULT 0;
  DECLARE uid INT DEFAULT 0;
  WHILE i < 1000
  DO
    SET uid = 1;
    WHILE uid < 100001
    DO
      INSERT INTO t_score_log_1(`user_id`,`score`,`log_time`) 
      VALUES(uid,  i % 100, DATE_ADD('2023-1-1',interval i second));
      SET uid = uid + 1;
      IF uid % 1000 = 0 THEN
        COMMIT;
      END IF;
    END WHILE;
    SET i = i + 1;
    COMMIT;
  END WHILE;
END $
DELIMITER ;

DELIMITER $
CREATE PROCEDURE insert_proc_2()
BEGIN
  DECLARE i INT DEFAULT 0;
  DECLARE uid INT DEFAULT 1;
  WHILE uid < 100001
  DO
    SET i = 0;
    WHILE i < 1000
    DO
      INSERT INTO t_score_log_2(`user_id`,`score`,`log_time`) 
      VALUES(uid,  i % 100, DATE_ADD('2023-1-1',interval i second));
      SET i = i + 1;
    END WHILE;
    SET uid = uid + 1;
    COMMIT;
  END WHILE;
END $
DELIMITER ;

接着，调用这两个函数向两个表中写入数据：

call insert_proc_1();

call insert_proc_2();

注意：为了更快的插入数据，关闭mysql的binlog并设置innodb_flush_log_at_trx_commit为0。

***************等待中****************

终于，数据插入完成，随机查询一些用户的历史数据比较一下耗时：

可以看到针对整理过后的数据（也就是表：t_score_log_2）查询性能远远高于未整理的表。

所以，针对历史数据特别大的场景，适当调整数据的分布情况可以极大的提升查询性能。

原文地址:https://blog.csdn.net/zhangqhn/article/details/135999006 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1753525199032160256.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

MySQL亿级数据的查询优化-历史表该如何建

相关推荐

最近更新

热门阅读