41 mysql subquery 的实现

2024-06-14 04:48:01
开发
26

前言

sub query 是一个我们经常会使用到的一个用法

我们这里看一看各个场景下面的 sub query 的相关处理

查看本文, 需要先看一下 join 的相关处理

测试数据表如下, 两张测试表, tz_test, tz_test03, 表结构一致

CREATE TABLE `tz_test` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `field1` varchar(128) DEFAULT NULL,
  `field2` varchar(128) DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE,
  UNIQUE KEY `field_1_2` (`field1`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=11 DEFAULT CHARSET=utf8

CREATE TABLE `tz_test_03` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `field1` varchar(128) DEFAULT NULL,
  `field2` varchar(128) DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE,
  UNIQUE KEY `field_1_2` (`field1`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=11 DEFAULT CHARSET=utf8

tz_test 数据如下

tz_test_03 数据如下

依据主键进行子查询

执行 sql 如下 “select * from tz_test where id in (select id from tz_test_03);”

这里的实现类似于 join 的根据主键进行关联的查询处理一样

选择的主驱动表为内层查询的数据表, 迭代内层的 id 列表

内层的遍历基于待查询的主表 tz_test, 主要的查询条件是基于正在遍历的 id 进行主键查询

因为这里是主键关联, 因此只会查询一次

内层迭代 tz_test 相关的函数如下, 只有一个根据主键进行查询, 下一个循环会直接跳出循环

查询类似于如下 join 查询

select t1.* from tz_test as t1 
inner join tz_test_03 as t2 on t1.id = t2.id 
where 1 = 1;

依据索引字段进行子查询

执行 sql 如下 “select * from tz_test where field1 in (select field1 from tz_test_03);”

这里的实现和 join 就有区别了, 这里是将内层查询处理成为了一个子查询, 新建了一张临时表

外层迭代的数据如下, 是 tz_test 表

内层循环迭代的是 mysql 生成的一张临时表 “<su bquery2>”, 这张表存在于内存, 并且根据数据特征做出了一些优化

比如我们这里 tz_test_03 表的 field1 字段, 其实仅仅只有 NORMAL 索引, 没有唯一限定, 但是实际上在这里从 qep_tab->read_first_record 和 info->read_record 可以看出, mysql 根据数据特征增加了一个 “唯一限定”, 对于这里的场景中 field1 是唯一的

最多只在 <subquery2> 中查询一次, 因此说这里 mysql 在这 <subquery2> 的临时表的 field1 字段增加了一个 “唯一限定”

然后 <subquery2> 中的查询如下, 这里是存储的结构是一个 HashMap, 这里按照 HashMap 的查询方式进行查询, 比如这里查询的 key 是 “field12”

<subquery2> 是根据 tz_test_03, 因此记录有 7 条

对于 tz_test 中有, <subquery2> 中不存在的记录, 这里内层循环查询不到, 响应 -1, 跳出循环

<subquery2> 临时表的数据填充

这里有三个 sub_query, 最顶层的是 tz_test, 第二层的是 <subquery2>, 最底层的是 tz_test_03

<subquery2> 的表数据类似于 “select field1 from tz_test_03;”

<subquery2> 的临时初始化是在 qup_tab->prepare_scan 中处理的

然后之后是将记录持久化到 share->records 中

依据普通字段进行子查询

执行 sql 如下 “select * from tz_test where field2 in (select field2 from tz_test_03);”

这里的处理和依据普通字段进行 join 查询的处理一样, 首先是将 tz_test_03 的相关字段放到 join_buffer, 因此这里 join_buffer 中有 7 条记录

然后这里迭代 tz_test 的数据, 然后输出符合条件的记录输出

do_select 这一层情况如下

查询类似于如下 join 查询

select t1.* from tz_test as t1 
inner join tz_test_03 as t2 on t1.field2 = t2.field2 
where 1 = 1;

大批量的数据依据主键进行子查询是否有优化?

构造大表如下

执行 sql 如下 “select *, 2, 2, 2 from tz_test where id in (select id from tz_test_03);”

可以看到的是查询实现是一样的, 主驱动表为的 tz_test_03, 然后内层循环表为 tz_test

完

原文地址:https://blog.csdn.net/u011039332/article/details/131864742 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1801355869317894144.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部