百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

mysql 千万级表数据删除及优化(mysql对于千万级的大表怎么优化)

wptr33 2025-05-03 16:58 19 浏览

在处理 MySQL 超大表(例如千万级或亿级数据)的数据删除时,直接使用 DELETE 语句可能会

导致严重的性能问题,例如锁表时间长、事务日志暴增、主从延迟甚至服务不可用。以下是针对

超大表数据删除的优化方案和注意事项:

1. 优先考虑分区表(Partitioning)

如果表已按时间或业务逻辑分区(如按月份分区),删除数据时可以直接 删除整个分区,效率极

高(仅需元数据操作)。

示例:

-- 删除指定分区
ALTER TABLE big_table DROP PARTITION p202201;

适用场景:

  • 数据按时间或固定规则分布。
  • 需要定期清理历史数据。

优势:

  • 几乎瞬时完成,无锁表风险。
  • 避免大量 I/O 操作。

2. 分批删除(Batch Delete)

直接删除全部数据会导致事务过大,建议 分批次删除,每次删除少量数据并释放事务资源。

-- 分批删除(每次删除 1000 条)
WHILE TRUE DO
		DELETE FROM big_table WHERE create_time < '2022-01-01' LIMIT 1000;
		COMMIT; -- 提交事务释放锁
		DO SLEEP(1); -- 暂停1秒减少负载
END WHILE;

优化技巧:

添加索引确保 WHERE 条件字段有索引(如 create_time ),否则全表扫描会极慢。

调整批次大小: 根据服务器性能调整 LIMIT 值(如 1000~10000)。

低峰期执行: 在业务低峰期运行删除任务。

3. 重建表(Recreate Table)

如果需要保留少量数据,可 创建新表 + 插入保留数据 + 重命名表。此方法通常比直接删除更

快。

-- 1. 创建新表(结构与原表相同)
CREATE TABLE new_big_table LIKE big_table;
-- 2. 插入需要保留的数据
INSERT INTO new_big_table
SELECT * FROM big_table WHERE create_time >= '2022-01-01';
-- 3. 重命名表(原子操作)
RENAME TABLE big_table TO old_big_table, new_big_table TO big_table;
-- 4. 删除旧表
DROP TABLE old_big_table;

优势:

  • 避免逐行删除的 I/O 开销。
  • 锁表时间极短(仅重命名瞬间)。

注意事项:

  • 需要足够的磁盘空间存储新旧两份数据。
  • 确保插入过程中无数据写入(建议在维护窗口操作)。

4. 使用 pt-archiver 工具

Percona Toolkit 中的 pt-archiver 是专门用于安全归档/删除大数据的工具,支持 分批处理、限

流、避免锁表。

pt-archiver \
--source h=localhost,D=test,t=big_table \
--purge \
--where "create_time < '2022-01-01'" \
--progress 1000 \
--limit 1000 \
--sleep 1

参数说明:

  • --purge : 直接删除数据(不归档)。
  • --limit 1000 : 每批删除 1000 行。
  • --sleep 1 : 每批后休眠 1 秒。

优势:

  • 避免长时间锁表(使用低锁级别)。
  • 支持限流,减少对业务影响。

5. 延迟删除(Low Priority Delete)

如果允许短暂延迟,可以结合 异步任务或事件调度器 逐步删除数据

-- 启用事件调度器
SET GLOBAL event_scheduler = ON;
-- 创建每日删除任务
CREATE EVENT daily_purge
ON SCHEDULE EVERY 1 DAY
STARTS CURRENT_TIMESTAMP
DO
BEGIN
DELETE FROM big_table WHERE create_time < '2022-01-01' LIMIT 100000;
END;

6. 预防性优化

  • 分区表设计: 在建表时提前规划分区,方便后续清理。
  • 定期归档: 使用定时任务将历史数据迁移到归档表或数据仓库
  • 调整 InnoDB 参数:
innodb_buffer_pool_size = 80%物理内存 # 提升缓存命中率
innodb_io_capacity = 2000 # 提高 I/O 吞吐量


注意事项

1. 备份优先: 删除前务必备份数据(如 mysqldump 或物理备份)。

2. 主从延迟: 大批量删除可能导致主从延迟,建议分批操作。

3. 监控资源: 关注 CPU、I/O、内存和锁状态(如 SHOW PROCESSLIST )。

4. 事务隔离: 使用 AUTOCOMMIT=1 或显式提交事务,避免长事务。

相关推荐

MySql系列-常用命令

本篇是对...

Record.ToTable 格式转换

本期案例对表格格式进行转换,前后转换效果如下:解题套路1.Record.ToTable解题思路:思路就是构造可以透视的样式。使用Record.ToTable对行记录进行转换,获得包含两列的表,首行可以...

Table.Group 按时期累计计算唯一值

本期案例是根据不同id进行汇总统计:组内,相同日期的为一组,统计“from”、“to”中的非重复个数;连续日期的,统计累计数。前后转换效果如下:解题套路1.Table.Group...

MySQL 9.1正式发布,有哪些值得关注的新特性?

MySQL创新版9.1.0于2024年10月15日正式发布。此外,MySQL8.0.40及8.4.3补丁版本也同时发布。8.4.3是目前MySQL的LTS长期支持版本,该版本中将不会增加新的功能与特性...

SQL基本语句练习(基础版)

最近在学习SQL基本语句的练习,在此分享一下笔者做过的练习以及个人的解决教程:首先是基本练习表格的搭建,具体内容如下表所示:...

SQL 从入门到精通:全面掌握数据库操作

学习SQL(StructuredQueryLanguage)是掌握数据库操作的关键步骤。SQL是一种用于管理和处理关系型数据库的标准语言,广泛应用于数据检索、插入、更新和删除等操作。以下是一些...

ClickHouse学习笔记四ClickHouse基础语法

前言这里我们介绍ClickHouse的基本语法,使用环境是腾讯云的ClickHouse。默认情况下,ClickHouse在进行集群纬度执行建表等DDL操作时需要手动添加ONCLUSTERX...

程序员总结的常用sql语句大全

多年经验程序员总结的我们一般需要使用的sql语句,赶快收藏起来,方便以后使用。以下是一些常用的SQL语句及其用法:一、数据定义语言(DDL)创建库CREATEDATABASE:创建一个新数据库。...

PQ03-分组求和

目标已知:销售清单求:每个销售员的销量合计方法数据准备...

好荐:一款数据库元数据管理平台工具

“元数据”的定义在不同的软件、项目、工程的定义范围都不太一样。本文这里指的是软件项目开发使用的数据库表结构信息。我今天介绍的这个开源项目叫Databasir,它是一个面向团队的关系型数据库模型文档管理...

MySQL 8.0 SQL优化黑科技,面试官都不一定知道!

前言提到SQL优化,大多数人想到的还是那些经典套路:建索引、避免全表扫描、优化JOIN顺序…这些确实是基础,但如果你还停留在MySQL5.7时代的优化思维,那就out了。MySQL8.0已经发布好...

MySQL数据库深度优化指南:从基础到架构层面的20个关键策略

一、核心性能优化原则数据最小化原则...

动物源性食品中兽药残留的检测——喹啉类药物残留

喹啉类药物(quinoxaline)是具有喹啉-N1,N4-二氧化物基本结构的一类化学合成的动物专用药,具有广谱抗菌、提高饲料转化率和促生长作用。1965年德国拜耳公司以邻硝基苯胺为原料合成喹乙醇(o...

适合普通开发者和产品经理的PHP应用模板开发AI的SaaS应用框架

简单到傻!Liang_SaaS适合普通开发者和产品经理的PHP应用模板开发AI的SaaS应用框架,利用Php开发AI的SaaS应用框架,是一个强大的内容管理仪表板模板,基于Bootstrap和...

Power Query 交错合并表格的方法

两张表格合并成一张表格,需要交错排列,表1取一行,表2取一行,这样排列在一起:前提是两张表的行数相同,内容排列顺序相同:我们来看两张表:表1:12列10行表2:11列10行行数相同列数不同,我们在数据...