为什么不建议使用多表join(什么情况下使用多表连接)
yuyutoo 2025-03-19 04:01 6 浏览 0 评论
前言
三年前在一家公司和开发团队的架构师合作过,一起写过代码。让我真的很难受啊,这个架构师写的代码很多逻辑都写到SQL里面,各种连表查询,SQL 非常的复杂,每次我去维护都得看好久它这个SQL逻辑。
回到最近,现在有个小伙儿班也是喜欢在SQL里面写逻辑,各种关联查询,甚至写的SQL连一万的数据连都支持不了。
所以我们的SQL尽量的简洁,少用多表关联查询。
为什么不建议使用多表join?
最主要的原因就是join的效率比较低
当然几万、几十万的数据量 连个几张表影响不大,用join查询是没啥问题的。要谈性能肯定是需要大量数据做支撑的。
MySQL是使用了嵌套循环(Nested-Loop Join)的方式来实现关联查询的,就是要通过两层循环,用第一张表做外循环,第二张表做内循环,外循环的每一条记录跟内循环中的记录作比较,符合条件的就输出。
- 性能问题:
- 多表 JOIN 会增加查询的复杂性,可能导致性能下降,特别是在数据量大时。
- 数据库需要在执行查询时处理更多的行和列,这可能导致更高的 I/O 操作和内存使用。
- 可读性和维护性:
- 复杂的 JOIN 查询会使 SQL 语句变得难以理解,导致维护成本增加。
- 当查询需要频繁修改时,复杂的 JOIN 会让代码更容易出错。
- 索引利用率:
- 多表 JOIN 可能会导致数据库无法有效利用索引,影响查询的优化。
- 如果 JOIN 的字段没有适当的索引,查询性能会显著下降。
- 锁竞争:
- 多表 JOIN 可能导致更长时间的行锁或表锁,从而增加锁竞争的可能性,影响并发性能。
- 数据完整性:
- 复杂的 JOIN 查询可能掩盖数据问题或不一致性,使得调试较为困难。
- 难以确保在 JOIN 查询中返回的数据符合业务逻辑和数据完整性要求。
如何优化:
- 分解查询:在内存中自己做关联,即先从数据库中把数据查出来之后,再次查询,然后再进行数据封装。
- 考虑数据冗余:在某些情况下,可以考虑数据冗余来减少 JOIN 的需要。
- 宽表:就是基于一定的join关系,把数据库中多张表的数据打平做一张大宽表,可以同步到ES或者干脆直接在数据库中直接查都可以
什么是hash join(扩展阅读)
mysql8.0.18 以前join查询使用Nested-Loop Join算法实现
Nested-Loop Join:嵌套循环连接,如果有2张表join的话,复杂度最高是O(n^2),3张表则是O(n^3),表中的数据量越多,JOIN的效率会呈指数级下降。
MySQL 8.0.18中优化了join查询,新增了 hash join算法。 Hash Join 是一种高效的联表查询算法,通常用于处理较大数据集的连接操作。下面将详细介绍 Hash Join 的原理,并通过示例图解说明其查询步骤。
Hash Join 原理
Hash Join 的基本原理是将一个表的数据构建成一个哈希表,然后利用该哈希表来查找另一个表中匹配的行。其主要分为两个阶段:
- 构建阶段(Build Phase):
- 选择一个较小的表(称为构建表)来创建哈希表。
- 根据连接条件的键值计算哈希值,并将这些键值和对应的行存储在哈希表中。
- 探测阶段(Probe Phase):
- 对另一个表(称为探测表)逐行读取数据。
- 对于探测表中的每一行,计算连接字段的哈希值,并在哈希表中查找匹配的行。
- 如果找到匹配,则将匹配的行组合在一起,形成结果集。
Hash join 案例
假设我们有两个表:
表 A:
ID | Name |
1 | Alice |
2 | Bob |
3 | Charlie |
表 B:
ID | Age |
1 | 25 |
2 | 30 |
4 | 40 |
我们希望通过 ID 字段将这两个表连接起来。
步骤 1: 构建哈希表
选择表 A 作为构建表。我们将根据 ID 字段创建哈希表。
- 对于 ID = 1,哈希值为 hash(1),存储为 {1: Alice}。
- 对于 ID = 2,哈希值为 hash(2),存储为 {2: Bob}。
- 对于 ID = 3,哈希值为 hash(3),存储为 {3: Charlie}。
哈希表:
{
1: Alice,
2: Bob,
3: Charlie
}
步骤 2: 探测阶段
接下来,我们对表 B 进行探测,查找与哈希表中的行匹配的行。
- 对于 ID = 1,计算 hash(1),在哈希表中找到匹配,结果为 (1, Alice, 25)。
- 对于 ID = 2,计算 hash(2),在哈希表中找到匹配,结果为 (2, Bob, 30)。
- 对于 ID = 4,计算 hash(4),在哈希表中未找到匹配。
匹配之后做聚合就得到结果集了
这里的hash表是存在内存中的,内存是有限制的,超过阈值之后就会走 磁盘Hash join 的算法
磁盘hash join
如果驱动表中的数据量超过阈值,就会走磁盘hash join的算法。将驱动表拆分成多个哈希区(或桶),每个桶存储在磁盘上。读取磁盘上的hash桶分别加载到内存,进行探测匹配,探测完成释放当前内存桶,继续从磁盘上读取下一个hash桶进行探测匹配,直到磁盘上所有的hash桶都处理完毕。
总结
在实际开发中,尽量减少多表join查询,保持SQL的逻辑清晰,这样不仅能提高性能,还有利于维护。
感谢佬们的一键三连+关注 !!!
Hash JOIN官方资料:
相关推荐
- ETCD 故障恢复(etc常见故障)
-
概述Kubernetes集群外部ETCD节点故障,导致kube-apiserver无法启动。...
- 在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法
-
FreeRADIUS为AAARadiusLinux下开源解决方案,DaloRadius为图形化web管理工具。...
- 如何排查服务器被黑客入侵的迹象(黑客 抓取服务器数据)
-
---排查服务器是否被黑客入侵需要系统性地检查多个关键点,以下是一份详细的排查指南,包含具体命令、工具和应对策略:---###**一、快速初步检查**####1.**检查异常登录记录**...
- 使用 Fail Ban 日志分析 SSH 攻击行为
-
通过分析`fail2ban`日志可以识别和应对SSH暴力破解等攻击行为。以下是详细的操作流程和关键分析方法:---###**一、Fail2ban日志位置**Fail2ban的日志路径因系统配置...
- 《5 个实用技巧,提升你的服务器安全性,避免被黑客盯上!》
-
服务器的安全性至关重要,特别是在如今网络攻击频繁的情况下。如果你的服务器存在漏洞,黑客可能会利用这些漏洞进行攻击,甚至窃取数据。今天我们就来聊聊5个实用技巧,帮助你提升服务器的安全性,让你的系统更...
- 聊聊Spring AI Alibaba的YuQueDocumentReader
-
序本文主要研究一下SpringAIAlibaba的YuQueDocumentReaderYuQueDocumentReader...
- Mac Docker环境,利用Canal实现MySQL同步ES
-
Canal的使用使用docker环境安装mysql、canal、elasticsearch,基于binlog利用canal实现mysql的数据同步到elasticsearch中,并在springboo...
- RustDesk:开源远程控制工具的技术架构与全场景部署实战
-
一、开源远程控制领域的革新者1.1行业痛点与解决方案...
- 长安汽车一代CS75Plus2020款安装高德地图7.5
-
不用破解原车机,一代CS75Plus2020款,安装车机版高德地图7.5,有红绿灯读秒!废话不多讲,安装步骤如下:一、在拨号状态输入:在电话拨号界面,输入:*#518200#*(进入安卓设置界面,...
- Zookeeper使用详解之常见操作篇(zookeeper ui)
-
一、Zookeeper的数据结构对于ZooKeeper而言,其存储结构类似于文件系统,也是一个树形目录服务,并通过Key-Value键值对的形式进行数据存储。其中,Key由斜线间隔的路径元素构成。对...
- zk源码—4.会话的实现原理一(会话层的基本功能是什么)
-
大纲1.创建会话...
- Zookeeper 可观测性最佳实践(zookeeper能够确保)
-
Zookeeper介绍ZooKeeper是一个开源的分布式协调服务,用于管理和协调分布式系统中的节点。它提供了一种高效、可靠的方式来解决分布式系统中的常见问题,如数据同步、配置管理、命名服务和集群...
- 服务器密码错误被锁定怎么解决(服务器密码错几次锁)
-
#服务器密码错误被锁定解决方案当服务器因多次密码错误导致账户被锁定时,可以按照以下步骤进行排查和解决:##一、确认锁定状态###1.检查账户锁定状态(Linux)```bash#查看账户锁定...
- zk基础—4.zk实现分布式功能(分布式zk的使用)
-
大纲1.zk实现数据发布订阅...
- 《死神魂魄觉醒》卡死问题终极解决方案:从原理到实战的深度解析
-
在《死神魂魄觉醒》的斩魄刀交锋中,游戏卡死犹如突现的虚圈屏障,阻断玩家与尸魂界的连接。本文将从技术架构、解决方案、预防策略三个维度,深度剖析卡死问题的成因与应对之策,助力玩家突破次元壁障,畅享灵魂共鸣...
你 发表评论:
欢迎- 一周热门
-
-
前端面试:iframe 的优缺点? iframe有那些缺点
-
带斜线的表头制作好了,如何填充内容?这几种方法你更喜欢哪个?
-
漫学笔记之PHP.ini常用的配置信息
-
推荐7个模板代码和其他游戏源码下载的网址
-
其实模版网站在开发工作中很重要,推荐几个参考站给大家
-
[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗
-
正在学习使用python搭建自动化测试框架?这个系统包你可能会用到
-
织梦(Dedecms)建站教程 织梦建站详细步骤
-
【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)
-
2024PHP在线客服系统源码+完全开源 带详细搭建教程
-
- 最近发表
-
- ETCD 故障恢复(etc常见故障)
- 在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法
- 如何排查服务器被黑客入侵的迹象(黑客 抓取服务器数据)
- 使用 Fail Ban 日志分析 SSH 攻击行为
- 《5 个实用技巧,提升你的服务器安全性,避免被黑客盯上!》
- 聊聊Spring AI Alibaba的YuQueDocumentReader
- Mac Docker环境,利用Canal实现MySQL同步ES
- RustDesk:开源远程控制工具的技术架构与全场景部署实战
- 长安汽车一代CS75Plus2020款安装高德地图7.5
- Zookeeper使用详解之常见操作篇(zookeeper ui)
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)