SQL Server之数据库语句优化
一、查询的逻辑执行顺序
1 2 3 4 5 6 7 8 | (1)FROMleft_table (3)join_typeJOINright_table(2)ONjoin_condition (4)WHEREwhere_condition (5)GROUPBYgroup_by_list (6)WITH{cube|rollup} (7)HAVINGhaving_condition (8)SELECT(9)DISTINCT(11)top_specificationselect_list (9)ORDER BYorder_by_list |
标准的 SQL 的解析顺序为:
(1) FROM 子句 组装来自不同数据源的数据
(2) WHERE 子句 基于指定的条件对记录进行筛选
(3) GROUP BY 子句 将数据划分为多个分组
(4) 使用聚合函数进行计算
(5) 使用HAVING子句筛选分组
(6) 计算所有的表达式
(7) 使用ORDER BY对结果集进行排序
二、执行顺序
1. FROM:对FROM子句中前两个表执行笛卡尔积生成虚拟表vt1
2. ON: 对vt1表应用ON筛选器只有满足 join_condition 为真的行才被插入vt2
3. OUTER(join):如果指定了 OUTER JOIN保留表(preserved table)中未找到的行将行作为外部行添加到vt2,生成t3,如果from包含两个以上表,则对上一个联结生成的结果表和下一个表重复执行步骤和步骤直接结束。
4. WHERE:对vt3应用 WHERE 筛选器只有使 where_condition 为true的行才被插入vt4
5. GROUP BY:按GROUP BY子句中的列列表对vt4中的行分组生成vt5
6. CUBE|ROLLUP:把超组(supergroups)插入vt6,生成vt6
7. HAVING:对vt6应用HAVING筛选器只有使 having_condition 为true的组才插入vt7
8. SELECT:处理select列表产生vt8
9. DISTINCT:将重复的行从vt8中去除产生vt9
10. ORDER BY:将vt9的行按order by子句中的列列表排序生成一个游标vc10
11. TOP:从vc10的开始处选择指定数量或比例的行生成vt11 并返回调用者
看到这里,那么用过Linq to SQL的语法有点相似啊?如果我们我们了解了SQL Server执行顺序,那么我们就接下来进一步养成日常SQL的好习惯,也就是在实现功能的同时有考虑性能的思想,数据库是能进行集合运算的工具,我们应该尽量的利用这个工具,所谓集合运算实际就是批量运算,就是尽量减少在客户端进行大数据量的循环操作,而用SQL语句或者存储过程代替。
三、只返回需要的数据
返回数据到客户端至少需要数据库提取数据、网络传输数据、客户端接收数据以及客户端处理数据等环节,如果返回不需要的数据,就会增加服务器、网络和客户端的无效劳动,其害处是显而易见的,避免这类事件需要注意:
A、横向来看
(1) 不要写SELECT * 的语句,而是选择你需要的字段。
(2) 当在SQL语句中连接多个表时, 请使用表的别名并把别名前缀于每个Column上。这样一来,就可以减少解析的时间并减少那些由Column歧义引起的语法错误。
1 2 3 4 | 如有表table1(ID,col1)和table2(ID,col2) SelectA.ID,A.col1,B.col2 -- Select A.ID, col1, col2 –不要这么写,不利于将来程序扩展 fromtable1Ainner jointable2BonA.ID=B.IDWhere… |
B、纵向来看
(1) 合理写WHERE子句,不要写没有WHERE的SQL语句。
(2) SELECT TOP N * — 没有WHERE条件的用此替代。
四、尽量少做重复的工作
A、控制同一语句的多次执行,特别是一些基础数据的多次执行是很多程序员很少注意的。
B、减少多次的数据转换,也许需要数据转换是设计的问题,但是减少次数是程序员可以做到的。
C、杜绝不必要的子查询和连接表,子查询在执行计划一般解释成外连接,多余的连接表带来额外的开销。
D、合并对同一表同一条件的多次UPDATE,比如
1 2 3 | UPDATEEMPLOYEESETFNAME='HAIWER' WHEREEMP_ID=' VPA30890F'UPDATEEMPLOYEESETLNAME='YANG' WHEREEMP_ID=' VPA30890F' |
这两个语句应该合并成以下一个语句
1 | UPDATEEMPLOYEESETFNAME='HAIWER',LNAME='YANG'WHEREEMP_ID=' VPA30890F' |
E、UPDATE操作不要拆成DELETE操作+INSERT操作的形式,虽然功能相同,但是性能差别是很大的。
五、注意临时表和表变量的用
在复杂系统中,临时表和表变量很难避免,关于临时表和表变量的用法,需要注意:
A、如果语句很复杂,连接太多,可以考虑用临时表和表变量分步完成。
B、如果需要多次用到一个大表的同一部分数据,考虑用临时表和表变量暂存这部分数据。
C、如果需要综合多个表的数据,形成一个结果,可以考虑用临时表和表变量分步汇总这多个表的数据。
D、其他情况下,应该控制临时表和表变量的使用。
E、关于临时表和表变量的选择,很多说法是表变量在内存,速度快,应该首选表变量,但是在实际使用中发现:
(1) 主要考虑需要放在临时表的数据量,在数据量较多的情况下,临时表的速度反而更快。
(2) 执行时间段与预计执行时间(多长)
F、关于临时表产生使用SELECT INTO和CREATE TABLE + INSERT INTO的选择,一般情况下:
SELECT INTO会比CREATE TABLE + INSERT INTO的方法快很多,
但是SELECT INTO会锁定TEMPDB的系统表SYSOBJECTS、SYSINDEXES、SYSCOLUMNS,在多用户并发环境下,容易阻塞其他进程。
所以我的建议是,在并发系统中,尽量使用CREATE TABLE + INSERT INTO,而大数据量的单个语句使用中,使用SELECT INTO。
六、子查询的用法
子查询是一个 SELECT 查询,它嵌套在 SELECT、INSERT、UPDATE、DELETE 语句或其它子查询中。
任何允许使用表达式的地方都可以使用子查询,子查询可以使我们的编程灵活多样,可以用来实现一些特殊的功能。但是在性能上,往往一个不合适的子查询用法会形成一个性能瓶颈。如果子查询的条件中使用了其外层的表的字段,这种子查询就叫作相关子查询。
相关子查询可以用IN、NOT IN、EXISTS、NOT EXISTS引入。 关于相关子查询,应该注意:
(1) NOT IN、NOT EXISTS的相关子查询可以改用LEFT JOIN代替写法。比如:
1 | SELECTPUB_NAMEFROMPUBLISHERSWHEREPUB_IDNOTIN(SELECTPUB_IDFROMTITLESWHERETYPE='BUSINESS') |
可以改写成:
1 | SELECTA.PUB_NAMEFROMPUBLISHERSALEFTJOINTITLESBONB.TYPE='BUSINESS'ANDA.PUB_ID=B.PUB_IDWHEREB.PUB_IDISNULL |
比如NOT EXISTS:
1 2 3 | SELECTTITLEFROMTITLES WHERENOTEXISTS (SELECTTITLE_IDFROMSALESWHERETITLE_ID=TITLES.TITLE_ID) |
可以改写成:
1 2 3 4 |
<td style="box-sizing:border-box !important;word-wrap:break-word !important