持久化 Python 会话:实现数据持久化和可重用性
wptr33 2025-07-10 21:26 3 浏览
Midjourney 生成
R语言会话持久化
熟悉或常用R语言进行数据分析/数据挖掘/数据建模的数据工作者可能对R语言的会话保存和会话恢复印象比较深刻,它可以将当前session会话持久化保存,以便分享给其他人开展后续的分析工作,而不需要重新执行前面的内容(前面数据处理过程可能很费时间),从而大大降低处理时间并提升效率。
RData 文件和 save.image() 函数的核心意义是提供一种方便的方式来保存和加载 R 会话的工作空间。它们的核心意义有以下几点:
- 持久化工作空间:RData 文件和 save.image() 函数允许你将当前会话的工作空间保存到硬盘上的文件中。这样,你可以在不同的时间点或不同的计算机上恢复保存时的工作环境。这对于长期项目、复杂分析和需要重复运行相同代码的情况非常有用。你可以保存数据、函数、变量和其他对象,以便将来使用。
- 环境共享和迁移:通过保存和加载工作空间,你可以方便地共享代码和数据,并在不同的 R 会话之间共享环境。这对于团队合作、结果复现和共享分析成果非常有帮助。你可以将工作空间发送给其他人,或在不同的计算机之间迁移工作环境,而无需手动重新创建对象和设置环境。
- 提高工作效率:RData 文件和 save.image() 函数可以帮助你节省时间和努力。你可以将工作空间保存为文件,避免在每次启动 R 会话时重新加载数据和设置环境。这样,你可以快速回到之前的工作状态,继续进行分析或开发,而不必从头开始。
总而言之,RData 文件和 save.image() 函数的核心意义是提供一种简单而有效的方法来保存和加载 R 会话的工作空间,以方便地保留和共享环境,节省时间并提高工作效率。
Python会话如何持久化?
持久化和恢复Python 对大数据处理(Data PipeLine)框架由比较大意义。
大数据应用的典型范式是由数据管道(Data PipeLine)组成的一系列数据加工处理和应用的过程,主流数据管道处理框架如批处理、流处理管道和Lambda架构。在这些数据管道中,Python 在数据处理和应用方面的应用越来越广泛,并成为主流的计算方式。Python 可以用于控制批处理部分的逻辑控制(与数据平台交互),并很好地支持交互数据应用部分,如交互报表和算法模型的预测服务。整个过程可以分为两部分:批处理部分(数据加工过程)和交互数据应用部分。
关于这两部分如何更好地结合,有两种方式:
- 分离方式:在这种方式下,批处理部分和交互数据应用部分是相互分离的。批处理部分负责数据加工和持久化,将结果存储在数据库或其他持久化数据存储中。交互数据应用部分则从持久化数据中加载所需的数据,并进行交互式应用和分析。这种方式可以通过数据库查询或数据加载方式来关联两部分的数据。
- 统一方式:在这种方式下,整个过程是统一和一体的。批处理部分的结果会被持久化,然后交互数据应用部分加载批处理结果的会话(session),并进行交互式的应用。这种方式可以通过使用适当的工具和框架,如dill等,来实现会话的持久化和加载。
那如何在Python中实现类似于 R 的 save.image() 功能,将会话数据持久化,以便在需要时重新加载和重用?
接下来介绍一下笔者尝试使用dill 包实现session会话的保存和恢复,同时修复dill在Notebook中使用出现的bug。
关于dill
dill 是一个扩展了 Python 的 pickle 模块的库,用于序列化和反序列化 Python 对象,并具有保存解释器会话状态的功能。
GitHub地址:https://github.com/uqfoundation/dill
主要功能:
a. 序列化和反序列化 Python 对象到大多数内置 Python 类型。
b. 提供与 pickle 模块相同的用户界面,并具有一些附加功能。
c. 能够保存解释器/Kernel会话的状态,以便在不同的解释器/Kernel会话之间恢复和继续执行。
d. 可以将 Python 对象作为字节流发送到网络上。
e. 允许对任意用户定义的类和函数进行序列化。
f. dill 是 pathos(pathos 是一个并行计算和多核编程的框架,旨在简化在多个计算资源上执行任务的过程。它提供了一组工具和接口,使得在分布式和并行计算环境中编写高效的代码更加容易) 框架的一部分,用于异构计算。
dill操作实例
- 安装dill
pip install dill
- 定义变量
import pandas as pd
import numpy as np
a=[100,'aa']
b={"x":100,"y":'200'}
df1 = pd.DataFrame({'A': np.arange(1,1000), 'B': np.arange(2,1001)})
df1
- 保存session 会话
import dill
filepath = 'session1.pkl'
dill.dump_module(filename=filepath)
- 关闭python 或kernel
- 重新进入python或重启kernel,加载session:
import dill
filepath = 'session1.pkl'
dill.load_module(filename=filepath)
df1
dill 在notebook上实例
通过测试发现,dill 在notebook上执行dump_module失败,经过排查主要由于IPython和ipykernel 相关socket对象无法持久化导致异常。IPython和ipykernel 主要kernel 与notebook 通信交互的相关包和对象,创建kernel 会自动生成无需持久化和恢复。
经排查和阅读dill 源代码,可以使用register重新注册dict 持久化类,先预处理过滤掉相关对象,再调用dill 内部snb_save_module_dict。代码参考如下:
from dill._dill import register
from dill._dill import save_module_dict
"""
dill 在notebook 里面无法正常使用,由于IPython和ipykernel 相关socket对象无法持久化,save pickl 时候需要过滤掉相关对象。
register 重新注册dict 持久化类,先预处理过滤掉,再调用dill 内部snb_save_module_dict。
"""
@register(dict)
def snb_save_module_dict(pickler, obj):
keys=list(obj.keys())
for k in keys:
if type(obj[k]).__module__.startswith("ipykernel.") or type(obj[k]).__module__.startswith("IPython."):
obj.pop(k,None)
else:
pass
#print(k,obj[k])
save_module_dict(pickler, obj)
经过测试,dill 可以完整在Notebook 使用。
相关推荐
- 台积电提出SRAM存内计算新方法,能效比可达89TOPS/W
-
芯东西(公众号:aichip001)编译|高歌编辑|云鹏芯东西3月16日消息,近期,台积电的研究人员在ISSCC2021会议上公布了一种改良的SRAM存储器阵列,该SRAM阵列采用22nm工...
- Golang中如何判断两个slice是否相等?
-
在Golang中,要判断两个slice是否相等是不能直接使用==运算符的(==只能说明两个slice是否指向同一个底层数组)。如果两个slice的底层数组相同,但长度或容量不同...
- JS入门基础知识(js基础知识总结笔记)
-
JS对象操作对象增删改查创建对象letobj={}新增属性obj.a=1修改属性obj.a='a'...
- 趣谈JS二进制:File、Blob、FileReader、ArrayBuffer、Base64
-
大家好,我是Echa。好久没跟粉丝们细聊JavaScript那点事了。做一名全栈工程师,JS基础还是要打牢,这样的话不管底层业务逻辑以及第三方框架怎么变化,都离不开基础。本文文章属于基础篇,阅读有点...
- 告别 substr() 和 substring()?更可靠的 JavaScript 字符串截取方法
-
JavaScript提供了三个主要的字符串截取方法:...
- golang第九天,切片(slice)介绍(golang 切片作为参数)
-
什么是切片golang切片是对数组的抽象。go的数组长度不可改变,在特定场景中这样的集合就不太适用,go中提供了一种灵活,功能强悍的内置类型切片(“动态数组”),与数组相比切片的长度是不固定的,可以追...
- Go语言零到一:数组(go struct数组)
-
引言...
- 你说你熟悉Slice,这道slice题你能答对吗?
-
每当你花费大量时间使用某种特定工具时,深入了解它并了解如何高效地使用它是很值得的。...
- Python 3.14七大新特性总结:从t-string模板到GIL并发优化
-
Python3.14已进入测试阶段,根据PEP745发布计划,该版本已停止引入新功能,也就是说新特征就应该已经固定下来了。所以本文基于当前最新的beta2版本,深入分析了Python3.14中...
- Python 幕后:Python导入import的工作原理
-
更多互联网精彩资讯、工作效率提升关注【飞鱼在浪屿】(日更新)Python最容易被误解的方面其中之一是import。...
- Python元类实现自动化编程的正确姿势
-
元类是Python中用于创建类的类。通过元类机制,开发者可在运行时动态创建和修改类,为框架开发、设计模式实现和高级架构设计提供核心支持。在Python语言的高级特性中,元类占据着独特而重要的地位。作...
- Python字符串详解与示例(python字符串类型及操作)
-
艾瑞巴蒂字符串的干货来了,字符串是程序中最常见的数据类型之一,用来表示数据文本,下面就来介绍下字符串的特性,操作和方法,和一些示例来吧道友:1.字符串的创建在python中字符串可以永单引号(...
- 恕我直言!你对Python里的import一无所知
-
文章来源:https://mp.weixin.qq.com/s/4WAOU_Lzy651IE-2zZSFfQ原文作者:写代码的明哥...
- Python基础:字符串操作(python字符串的用法)
-
字符串是Python中最常用的数据类型之一,用于表示文本数据。我们将学习如何对字符串进行常见的操作,包括创建、访问、修改和处理字符串。通过掌握这些技巧,您将能够更好地处理和操作文本数据。让我们开始吧!...
- Python 中 字符串处理的高效方法,不允许你还不知道
-
以下是Python中字符串处理的高效方法...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
git 执行pull错误如何撤销 git pull fail
-
面试官:git pull是哪两个指令的组合?
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
-
- 台积电提出SRAM存内计算新方法,能效比可达89TOPS/W
- Golang中如何判断两个slice是否相等?
- JS入门基础知识(js基础知识总结笔记)
- 趣谈JS二进制:File、Blob、FileReader、ArrayBuffer、Base64
- 告别 substr() 和 substring()?更可靠的 JavaScript 字符串截取方法
- golang第九天,切片(slice)介绍(golang 切片作为参数)
- Go语言零到一:数组(go struct数组)
- 你说你熟悉Slice,这道slice题你能答对吗?
- Python 3.14七大新特性总结:从t-string模板到GIL并发优化
- Python 幕后:Python导入import的工作原理
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)