百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

记一次有意思的 SQL 实现 → 分组后取每组的第一条记录

wptr33 2024-12-03 18:47 19 浏览

开心一刻

  今天,朋友气冲冲地走到我面前

  朋友:我不是谈了个女朋友,谈了三个月嘛,昨天我偷看她手机,你猜她给我备注什么

  我:备注什么?

  朋友:舔狗 2 号!

  我一听,气就上来了,说道:走,找她去,这婆娘确实该骂,臭不要脸的

  朋友拉住我,劝到:哎哎,不是去骂她,是找她理论,叫她改成舔狗1号,是我先来的!

  我:滚,我不认识你

需求背景

  环境

   MySQL 版本:8.0.27

  有四张表:业务信息表、任务表、业务任务表、任务执行日志表

CREATE TABLE `t_business` (
  `business_id` BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT '业务id',
  `business_name` VARCHAR(100) NOT NULL COMMENT '业务名',
  `note` VARCHAR(200) NOT NULL DEFAULT '' COMMENT '备注',
  `create_user` BIGINT(20) NOT NULL COMMENT '创建人',
  `create_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) COMMENT '创建时间',
  `modify_user` BIGINT(20) NOT NULL COMMENT '最终修改人',
  `modify_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) ON UPDATE CURRENT_TIMESTAMP(3) COMMENT '最终修改时间',
  PRIMARY KEY (`business_id`) USING BTREE
) ENGINE=InnoDB COMMENT='业务信息';

CREATE TABLE `t_task` (
  `task_id` BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT '任务id',
  `task_name` VARCHAR(100) NOT NULL COMMENT '业务名',
  `note` VARCHAR(200) NOT NULL DEFAULT '' COMMENT '备注',
  `create_user` BIGINT(20) NOT NULL COMMENT '创建人',
  `create_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) COMMENT '创建时间',
  `modify_user` BIGINT(20) NOT NULL COMMENT '最终修改人',
  `modify_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) ON UPDATE CURRENT_TIMESTAMP(3) COMMENT '最终修改时间',
  PRIMARY KEY (`task_id`) USING BTREE
) ENGINE=InnoDB COMMENT='任务信息';

CREATE TABLE `t_business_task` (
  `id` BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT '主键id',
    `business_id` BIGINT(20) UNSIGNED NOT NULL COMMENT '业务id',
  `task_id` BIGINT(20) UNSIGNED NOT NULL COMMENT '任务id',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB COMMENT='业务任务关系';

CREATE TABLE `t_task_exec_log` (
  `log_id` BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT '日志id',
  `task_id` BIGINT(20) UNSIGNED NOT NULL COMMENT '任务id',
  `exec_status` VARCHAR(50) NOT NULL COMMENT '执行状态, 失败:fail,成功:success',
    `data_date` DATE NOT NULL COMMENT '数据日期',
  `note` VARCHAR(200) NOT NULL DEFAULT '' COMMENT '备注',
  `create_user` BIGINT(20) NOT NULL COMMENT '创建人',
  `create_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) COMMENT '创建时间',
  `modify_user` BIGINT(20) NOT NULL COMMENT '最终修改人',
  `modify_time` DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) ON UPDATE CURRENT_TIMESTAMP(3) COMMENT '最终修改时间',
  PRIMARY KEY (`log_id`) USING BTREE
) ENGINE=InnoDB COMMENT='任务执行日志';

  它们关系如下

  一个业务下有多个任务,一个任务又可以属于不同的业务;同个业务下,一个任务最多关联一次

  任务每执行一次就会生成一条执行日志;执行日志的数据日期 小于等于 任务执行的当前日期,比如昨天执行的任务的数据日期可以是前天的

  四张表的数据量分别如下

  需求

  按业务分页,每个业务可以展开显示关联的任务信息以及任务最新的执行成功信息

  任务最新的执行成功信息:状态成功,数据日期最大的那条执行日志信息;如果数据日期一致,则取最终修改时间最大的

  后端返回的 JSON 数据类似如下

实现方式

  先分页查业务和任务,再根据任务id循环查最新的执行成功信息

  1、关联查询业务和任务

    如果查询条件带任务信息(任务ID,任务名),那么 t_business 需要关联 t_business_taskt_task 来查

    因为这三张表的数据量都比较小,联表查没什么问题

  2、根据上一步查到的 task_id 集逐个去查 t_task_exec_log

     SQL 类似如下

    可以建个组合索引 idx_status_task_date_modify(exec_status,task_id,data_date,modify_time)

  3、将第 1、2 步的数据进行组合

    将任务的最新执行成功信息添加到任务信息中

  逻辑非常清晰,代码实现起来也非常简单

  但是,一个任务id就查一次数据库,这显然是有很大性能问题的(一般,公司的开发规范内都会有一条:禁止循环查数据库)

  先分页查业务和任务,再根据任务id批量查最新的执行成功信息

  1、关联查询业务和任务

  2、根据第 1 步查到的任务id集批量查 t_task_exec_log

    因为这是多个任务一起查,也就没法用 LIMIT 1

    那如何查出每个任务的最新执行成功的那一条记录了?

    这里也就对应了文章的标题:分组后取每组的第 1 条记录

    实现方式其实有很多,我这里提供一种,如下

    结合索引 idx_status_task_date_modify(exec_status,task_id,data_date,modify_time) ,查询速度还行

    大家细看这个 SQL ,是不是发现了有意思的东西:GROUP_CONCAT(log_id ORDER BY data_date DESC,modify_time DESC)

    是不是知识盲区,是不是有点东西?

  3、将第 1、2 步的数据进行组合

  新增任务最新执行成功记录表

  一般而言,大数据量的日志表是不参与复杂查询的,所以单独拎出来一个表,专门记录任务最新执行成功信息

  一个任务最多只有一条记录,不存在则直接插入表中,存在则根据 data_date DESC,modify_time DESC 与表中记录做比较,看是否需要进行表中记录更新

  因为一个任务最多只有一条记录,那么 t_task_latest_exec_log 的数据量是 小于等于 t_task 的数据量的,也就是说数据量不大

  那么用一个 SQL 就可以实现业务(直接联表 t_businesst_business_taskt_taskt_task_latest_exec_log

  然后在后端代码中进行数据格式的处理,返回前端需要的格式

  新增表后,其初始数据该如何导入了?

总结

  1、大家写 SQL 的时候,一定要多结合执行计划来写

    神奇的 SQL 之 MySQL 执行计划 → EXPLAIN,让我们了解 SQL 的执行过程!

  2、 t_task_latest_exec_log 初始数据的导入

    其实比较简单, 如下所示

INSERT INTO t_task_latest_exec_log(task_id,data_date,create_user,create_time,modify_user,modify_time)
SELECT t2.task_id, t2.data_date, t2.create_user, t2.create_time, t2.modify_user,t2.modify_time FROM (
    SELECT SUBSTRING_INDEX(GROUP_CONCAT(log_id ORDER BY data_date DESC,modify_time DESC),',',1) log_id
    FROM t_task_exec_log
    WHERE exec_status = 'success'
    GROUP BY task_id
) t INNER JOIN t_task_exec_log t2 ON t.log_id = t2.log_id;

    一定要去执行,你会发现大惊喜

  3、多和同事沟通,多和需求方沟通

    多和同事沟通,集思广益,说不定就找到合适的解决方案了

    多和需求方沟通,多谈谈个人的见解,也许需求改动一丢丢,但我们实现却容易很多

  4、留疑

    1、分组后如何取前 N 条

    2、分组后如何取倒数 N 条

相关推荐

抢先体验Windows 10 20H2新功能,该怎样操作呢?

Win10系统通常会在一年当中进行两次重大更新,分别于上下半年分别推出。上半年的更新主要针对功能的变化,而下半年则是提升系统稳定性。最近Win10下半年最重要的更新Windows1020H2已经开...

教程:如何关闭Win10/Win8.1/Win7管理共享

教程:如何关闭Win10/Win8.1/Win7管理共享出处:IT之家原创(晨风)默认情况下,Windows会创建一些隐藏的共享文件夹,这些文件夹在名称的末尾都有美元“$”标志。当用户在文件资源管理...

Win11学院:如何强制让Windows 11设备蓝屏

IT之家12月15日消息,在Win11系统中蓝屏(BSoD)也称为“停止错误”(StopError)和“错误检查”(BugCheck),通常情况下只有在遇到关键问题的时候才会出现。显然...

微软承认Windows 10新BUG:错误显示没有网络连接

来源:cnBeta.COM在7月补丁星期二活动中,微软发布的累积更新已经修复Windows10系统中的大量BUG。不过近日,微软承认了存在于Windows10May2020(20H...

一课译词:双标(双标英文怎么写)

PhotobyMarkusSpiskeonUnsplash“双标[shuāngbiāo]”,网络流行语,完整说法是“双重标准”,翻译为“doublestandard”。“双标”是指“对同...

知识科普:USB端口如何禁用和解锁?

2015-07-3005:32:00作者:赵为民经常有人会说,我要保护我的笔记本电脑的USB端口,在未经授权的情况下不能够访问。是否有专业的软件可以将USB端口锁死,然后在需要的时候解锁呢?是的,...

小迈科技 X Hologres:高可用的百亿级广告实时数仓建设

通过本文,我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。一、业务介绍...

Modbus-RTU通信(modbus rtu rtu over tcp)

通常情况下我们做Modbus通信的时候,都会先用测试软件进行测试,等通信测试通过之后,我们才会进行移植,我这边主要讲的是移植到PLC上,我现在这边还没有开始做PLC程序,那先把前期的用测试软件如何测...

警惕!利用Github进行水坑攻击安全风险通告

2022年5月19日,亚信安全CERT监测发现Github账户为rkxxz的用户发布了CVE-2022-26809和CVE-2022-24500的项目,项目内容介绍为:CVE-2022-26809...

手机越用越慢?小编教你如何用黑狱冰箱调教它!

看完智趣狗昨天推送的《看完秒懂!这就是Android手机越用越卡的原因!》一文后,我们不难知晓手机越用越慢多是体量更大的APP,以及APP之间相互唤醒而导致资源过度消耗引起的。所以,想让手机恢复高效率...

秒杀系统—3.第二版升级优化的技术文档一

大纲1.秒杀系统的服务细分和服务定位...

Redis命令介绍(二十五)HSET & HSETNX

HSET将上送的键值对保存在key中存储的哈希表中。如果key不存在则创建一个新的哈希表。如果key已存在,则覆盖。在4.0版本后,HSET支持同时上送多键值对。...

IDEA用上这十大插件就很舒服(intellij idea插件推荐)

本文翻译自国外论坛medium,原文地址:https://medium.com/@xjpp22/top-10-plugins-for-intellij-idea-you-dont-want-to-m...

常用 Git 命令清单(git常用命令速查表)
常用 Git 命令清单(git常用命令速查表)

下面是整理的常用Git命令清单。几个专用名词的译名如下。...

2025-07-07 23:38 wptr33

GitHub|清晰理解本地目录、暂存区、本地仓库、远程仓库的交互

GitHub是一个在线平台,旨在促进在一个共同项目上工作的个人之间的代码托管、版本控制和协作。通过该平台,无论何时何地,都可以对项目进行操作(托管和审查代码,管理项目和与世界各地的其他开发者共同开发...