百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

SQL 查询并不是从 SELECT 开始的

wptr33 2024-12-03 18:47 23 浏览

原文地址:SQL queries don't start with SELECT

原文作者:Julia Evans(已授权)

译者 & 校正:HelloGitHub-小熊熊 & 卤蛋

日常使用中写 SQL 查询命令都是以 SELECT 开始的(注意:本文仅探讨 SELECT 查询,不涵盖 insert 或其他 SQL 命令)。

昨天我想到一个问题:可以用 WHERE、HAVING 或者其他方式来过滤窗口函数执行结果吗?

经过一番探索,我得出的最终结论是否定的,因为窗口函数必须在 WHERE 和 GROUP BY 之后才能运行。但是,这也延伸到了一个更大的问题——SQL 查询的执行顺序是怎么样的呢?

SQL 查询执行顺序

我专门查了一下文档 SQL 查询执行顺序如下:

如果不喜欢以上五彩斑斓的图片形式,也可以看下面的文字:

  1. FROM/JOIN/ON
  2. WHERE
  3. GROUP BY
  4. HAVING
  5. SELECT(窗口函数即在此步骤执行)
  6. ORDER BY
  7. LIMIT

上图可以解答你的如下疑惑:

上图是 SQL 查询的语义说明。看懂这张图,便能迅速判断一个给定的 SQL 查询将会返回什么结果,也可以轻松解答如下疑问:

  • 可以对 GROUP BY 的结果进行WHERE 筛选吗?(不可以!因为 WHERE 在 GROUP BY 之前执行)
  • 可以对窗口函数的执行结果进行过滤吗?(不可以!因为窗口函数在 SELECT 步骤执行,而这步是在 WHERE 和 GROUP BY 之后)
  • 可以对 GROUP BY 的结果再执行 ORDER BY 操作吗? (可以!ORDER BY 基本上是最后一个步骤了,所以可以对任何操作的执行结果执行 ORDER BY)
  • LIMIT 执行在哪个步骤? (最后一步!)

虽然如此,但实际上数据库引擎并非严格按照这个顺序运行查询,因为它们还会执行一系列的优化,以便提升查询速度。

所以:

  • 当你想了解查询语句的有效性,或是想搞明白为什么会返回这样一个查询结果时,可以尝试用该图来解释;
  • 但是,使用该图是无法解释查询性能或索引相关问题的,它们会涉及到更多变量,因而也更为复杂。

比如下面这些场景

一、最容易搞混的:列别名

比如:关联姓和名,并对其进行分组。SQL 语法是允许这样写:

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)
FROM table
GROUP BY full_name

上面的查询看起来像是在 SELECT 之后执行 GROUP BY,但其实 GROUP BY是先执行的,因为 GROUP BY 引用了 SELECT 中的 alias

数据库引擎是可以将查询重写为:

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*)
FROM table
GROUP BY CONCAT(first_name, ' ', last_name)

接着,先执行 GROUP BY 中的语句,再进行 SELECT 操作,所以上面那么写是可行的。

此外,数据库引擎肯定会执行一系列检查,以确保在查询开始运行之前,SELECTGROUP BY 中的内容相匹配,因此在制定执行计划之前,它必须将查询语句当作一个整体来检查。

二、查询并非严格按照此顺序运行(优化)

实际上,数据库引擎并不是通过连接、过滤和分组来运行查询,因为它实现了一系列优化来提升查询速度,如重新排序(只要不影响最终返回结果)。

这里列举一个简单的例子来说明查询的执行顺序是如何影响了查询性能。

SELECT * FROM
owners LEFT JOIN cats ON owners.id = cats.owner
WHERE cats.name = 'mr darcy'

如果只需要查找 3 个名为“mr darcy”的猫,那么执行整个左连接并匹配这两个表中的所有行是很慢的。相反,如果先对名为“mr darcy”的猫进行筛选再去执行连接,则要快得多。在这种情况下,先执行过滤不会改变查询的结果!

实际上,数据库引擎还实现了许多其他的优化,使得查询语句以另外的顺序来执行,这里暂且不表。

三、不一样的查询语法

LINQ(C# 和 VB.NET 中的查询语法)是按照FROM ... WHERE ... SELECT的顺序来执行查询。以下是 LINQ 查询的示例:

var teenAgerStudent = from s in studentList
                      where s.Age > 12 && s.Age < 20
                      select s;

Pandas(Python 数据统计分析工具)也基本上是这样工作的,尽管有时候不需要严格按照下面的顺序来编写代码,但这样也不失为一种好习惯:

df = thing1.join(thing2)      # like a JOIN
df = df[df.created_at > 1000] # like a WHERE
df = df.groupby('something', num_yes = ('yes', 'sum')) # like a GROUP BY
df = df[df.num_yes > 2]       # like a HAVING, filtering on the result of a GROUP BY
df = df[['num_yes', 'something1', 'something']] # pick the columns I want to display, like a SELECT
df.sort_values('sometthing', ascending=True)[:30] # ORDER BY and LIMIT
df[:30]

这并不是因为 Pandas 的强制规定,只是按照 JOIN/WHERE/GROUP BY/HAVING 的顺序来编写代码更有助于理解底层逻辑。(值得一提的是,可以在 JOIN 之前先执行 WHERE 来提高性能,大多数数据库引擎在实践中也是这样来执行的)

R 中的 dplyr(R 语言用来操作数据框的包)还允许采用不同的语法查询不同的 SQL 数据库,如:Postgres、MySQL 和 SQLite。

最后

当我发现 SQL 查询语句的这种执行顺序时,我其实是非常惊讶的。通过探究 SQL 查询语句的执行顺序,把我之前遇到的问题搞清楚了。也希望本文能帮助到更多的人理解 SQL 的执行顺序以及如何正确编写 SQL 查询语句。

相关推荐

抢先体验Windows 10 20H2新功能,该怎样操作呢?

Win10系统通常会在一年当中进行两次重大更新,分别于上下半年分别推出。上半年的更新主要针对功能的变化,而下半年则是提升系统稳定性。最近Win10下半年最重要的更新Windows1020H2已经开...

教程:如何关闭Win10/Win8.1/Win7管理共享

教程:如何关闭Win10/Win8.1/Win7管理共享出处:IT之家原创(晨风)默认情况下,Windows会创建一些隐藏的共享文件夹,这些文件夹在名称的末尾都有美元“$”标志。当用户在文件资源管理...

Win11学院:如何强制让Windows 11设备蓝屏

IT之家12月15日消息,在Win11系统中蓝屏(BSoD)也称为“停止错误”(StopError)和“错误检查”(BugCheck),通常情况下只有在遇到关键问题的时候才会出现。显然...

微软承认Windows 10新BUG:错误显示没有网络连接

来源:cnBeta.COM在7月补丁星期二活动中,微软发布的累积更新已经修复Windows10系统中的大量BUG。不过近日,微软承认了存在于Windows10May2020(20H...

一课译词:双标(双标英文怎么写)

PhotobyMarkusSpiskeonUnsplash“双标[shuāngbiāo]”,网络流行语,完整说法是“双重标准”,翻译为“doublestandard”。“双标”是指“对同...

知识科普:USB端口如何禁用和解锁?

2015-07-3005:32:00作者:赵为民经常有人会说,我要保护我的笔记本电脑的USB端口,在未经授权的情况下不能够访问。是否有专业的软件可以将USB端口锁死,然后在需要的时候解锁呢?是的,...

小迈科技 X Hologres:高可用的百亿级广告实时数仓建设

通过本文,我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。一、业务介绍...

Modbus-RTU通信(modbus rtu rtu over tcp)

通常情况下我们做Modbus通信的时候,都会先用测试软件进行测试,等通信测试通过之后,我们才会进行移植,我这边主要讲的是移植到PLC上,我现在这边还没有开始做PLC程序,那先把前期的用测试软件如何测...

警惕!利用Github进行水坑攻击安全风险通告

2022年5月19日,亚信安全CERT监测发现Github账户为rkxxz的用户发布了CVE-2022-26809和CVE-2022-24500的项目,项目内容介绍为:CVE-2022-26809...

手机越用越慢?小编教你如何用黑狱冰箱调教它!

看完智趣狗昨天推送的《看完秒懂!这就是Android手机越用越卡的原因!》一文后,我们不难知晓手机越用越慢多是体量更大的APP,以及APP之间相互唤醒而导致资源过度消耗引起的。所以,想让手机恢复高效率...

秒杀系统—3.第二版升级优化的技术文档一

大纲1.秒杀系统的服务细分和服务定位...

Redis命令介绍(二十五)HSET &amp; HSETNX

HSET将上送的键值对保存在key中存储的哈希表中。如果key不存在则创建一个新的哈希表。如果key已存在,则覆盖。在4.0版本后,HSET支持同时上送多键值对。...

IDEA用上这十大插件就很舒服(intellij idea插件推荐)

本文翻译自国外论坛medium,原文地址:https://medium.com/@xjpp22/top-10-plugins-for-intellij-idea-you-dont-want-to-m...

常用 Git 命令清单(git常用命令速查表)
常用 Git 命令清单(git常用命令速查表)

下面是整理的常用Git命令清单。几个专用名词的译名如下。...

2025-07-07 23:38 wptr33

GitHub|清晰理解本地目录、暂存区、本地仓库、远程仓库的交互

GitHub是一个在线平台,旨在促进在一个共同项目上工作的个人之间的代码托管、版本控制和协作。通过该平台,无论何时何地,都可以对项目进行操作(托管和审查代码,管理项目和与世界各地的其他开发者共同开发...