百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Spark3.x的Cache能不能让我在2022好好睡觉

wptr33 2024-12-20 19:04 36 浏览

前言

一转眼已经是2022年1月9日了,跨年的节点会发生很多系统性的大事,对于普通人来讲就是跨过一个新的公元年2021->2022,对于生产系统来说,尤其是离线系统,需要发生年结,虽然期望平稳度过,但是实际情况总归没那么太平,所以每次到了这种节点,我们都是第一个flag,新的一年,好好睡觉!!

2022我就想好好睡觉

Spark1.X

Spark1.x的时代,大部分工作上解决内存计算模式下动不动就OOM那种让人抓狂的事情,需要半夜爬起来加内存

Spark2.x

Spark2.x版本,尤其是SparkSQL的引入,扩大了使用场景,自动化的执行计划经常是不对的,需要半夜爬起来手工改执行计划

Spark3.x

到了Spark3.x时代,就在当下,只能一些展望吧,小博客可以带来一些改善睡眠带有一些舒适度(吐槽+抓狂+有点小改善)的内容^^

Spark Cache中 Ugly的执行计划带来的抓狂问题(重点批判)

”Cache Table可以把数据放在内存,这段数据在未来使用的时候可以复用,减少IO“,这个是最初吸引很多同学去使用Cache表的骚操作,这个带来一系列抓狂问题:

1、乱用Cache

大部分同学就是直接使用sql,不是很懂得去控制Cache的大小,大量疯狂的大表也往内存里面怼,实际也装不下,反而导致数据溢出到磁盘上面了

2、想当然地以为快而已

我们看到那种问题SQL,下游其实没有所谓的复用,就是存粹的,读取一次Cache一次,然后下游的作业再从内存表中读取一次

3、凌晨资源情况不一样

凌晨起夜的时候,因为平台的资源会整体拉到一个高度,所以到了凌晨的时候没有那么多内存来霍霍,最后白天可以正常执行的就不能执行了

4、没关注真正慢的原因

磁盘读取一次其实也没那么慢,很多任务慢在Shuffle上,cache一次只能是添堵

5、调试带来的困难

一方面,我们作为平台同学来说,是去看人家的任务,逻辑也没那么熟悉,另一方面,Spark2.X的UI 不显示哪个表被读取了

InMemoryTableScan压根看不出啥东西,处理问题起来很痛苦

一些改进的措施

Cache别乱用

我们在很多情况下发现,大部分任务慢发生在Shuffle阶段,当然在Spark3.x中对Shuffe本身也做了很多优化,需要找准瓶颈

平台侧的解读取IO思路

实际发现我们真要做分布式Cache,是直接把数据底层Cache起来,上层并不感知,目前效果比较好的做法是走的Alluxio,我们会把表的localtion改掉,而且也是平台视角去观测读取的热点数据

重复读落地表来得更有效

实际的重复读读,其实是在夸任务的情况读取比较多,而且是发生在跨集群带来的打满带宽问题,集群内部的IO读取很少打爆的,平台的优化策略是在不同的cluster上作replication操作

Spark3.x带来优化Cache Table展示

后记

所以说2022真能好好睡觉么?

相关推荐

什么是Java中的继承?如何实现继承?

什么是继承?...

Java 继承与多态:从基础到实战的深度解析

在面向对象编程(OOP)的三大支柱中,继承与多态是构建灵活、可复用代码的核心。无论是日常开发还是框架设计,这两个概念都扮演着至关重要的角色。本文将从基础概念出发,结合实例与图解,带你彻底搞懂Java...

Java基础教程:Java继承概述_java的继承

继承概述假如我们要定义如下类:学生类,老师类和工人类,分析如下。学生类属性:姓名,年龄行为:吃饭,睡觉老师类属性:姓名,年龄,薪水行为:吃饭,睡觉,教书班主任属性:姓名,年龄,薪水行为:吃饭,睡觉,管...

java4个技巧:从继承和覆盖,到最终的类和方法

日复一日,我们编写的大多数Java只使用了该语言全套功能的一小部分。我们实例化的每个流以及我们在实例变量前面加上的每个@Autowired注解都足以完成我们的大部分目标。然而,有些时候,我们必须求助于...

java:举例说明继承的概念_java继承的理解

在现实生活中,继承一般指的是子女继承父辈的财产。在程序中,继承描述的是事物之间的所属关系,通过继承可以使多种事物之间形成一种关系体系。例如猫和狗都属于动物,程序中便可以描述为猫和狗继承自动物,同理,...

从零开始构建一款开源的 Vibe Coding 产品 Week1Day4:业界调研之 Agent 横向对比

前情回顾前面两天我们重点调研了了一下Cursor的原理和Cursor中一个关键的工具edit_file的实现,但是其他CodingAgent也需要稍微摸一下底,看看有没有优秀之处,下...

学会这几个插件,让你的Notepad++使用起来更丝滑

搞程序开发的小伙伴相信对Notepad++都不会陌生,是一个占用空间少、打开启动快的文件编辑器,很多程序员喜欢使用Notepad++进行纯文本编辑或者脚本开发,但是Notepad++的功能绝不止于此,...

将 node_modules 目录放入 Git 仓库的优点

推荐一篇文章Whyyoushouldcheck-inyournodedependencies[1]...

再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测

“再熬一年,90%的程序员可能再也用不着写for循环。”凌晨两点半,王工还在公司敲键盘。他手里那份需求文档写了足足六页,产品经理反复改了三次。放在过去,光数据库建表、接口对接、单元测试就得写两三天。现...

git 如何查看stash的内容_git查看ssh key

1.查看Stash列表首先,使用gitstashlist查看所有已保存的stash:...

6万星+ Git命令懒人必备!lazygit 终端UI神器,效率翻倍超顺手!

项目概览lazygit是一个基于终端的Git命令可视化工具,通过简易的TUI(文本用户界面)提升Git操作效率。开发者无需记忆复杂命令,即可完成分支管理、提交、合并等操作。...

《Gemini CLI 实战系列》(一)Gemini CLI 入门:AI 上命令行的第一步

谷歌的Gemini模型最近热度很高,而它的...

deepin IDE新版发布:支持玲珑构建、增强AI智能化

IT之家8月7日消息,深度操作系统官方公众号昨日(8月6日)发布博文,更新推出新版deepin集成开发环境(IDE),重点支持玲珑构建。支持玲珑构建deepinIDE在本次重磅更...

狂揽82.7k的star,这款开源可视化神器,轻松创建流程图和图表

再不用Mermaid,你的技术文档可能已经在悄悄“腐烂”——图表版本对不上、同事改完没同步、评审会上被一句“这图哪来的”问得哑口无言。这不是危言耸听。GitHub2025年开发者报告显示,63%的新仓...

《Gemini CLI 实战系列》(五)打造专属命令行工具箱

在前几篇文章中,我们介绍了GeminiCLI的基础用法、效率提升、文件处理和与外部工具结合。今天我们进入第五篇...