百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

文科生自学Python-pandas交叉透视表降维变换

wptr33 2025-06-09 00:43 16 浏览

--心有猛虎,细嗅蔷薇,学习编程成就更好的自己--

Python语言简洁生动,特别适合文科生学习入门IT世界,用几十行代码就能够做一个完整的爬虫脚本,开发效率杠杠的!短时间内即可解决工作和学习中碰到的棘手问题。(本人外语专业毕业,机缘巧合爱上编程,自学道路曲曲折折,痛并快乐!)在这里总结一下自学Python遇到的难点和重点,分享码过的代码和要点总结,希望能够给初学者一点启示和鼓励,同时愿意结交更多大神交流有助提升自己的水平。

平时在做数据处理和分析时经常使用pandas进行各种透视操作(pivot_table),而透视中最常见的是进行两个维度交叉查询,此时得到的透视结果集往往是二维表带多级标题,如何把二维表变换成为一维表呢?今天就针对这个问题展开展示和讲解,接下来看看实际案例吧:

原始数据如下:

该数据源主要包括日期,产品名称和销售收入,一般通过交叉透视查询可以得到不同产品在指定日期范围内的销售收入情况,但形成的结果往往是多维表并带多层标题,如何降维成一维表方便满足其他需求呢(例如生成热力图)?

下面来讲讲如何实现吧:

读取和查看数据基本情况:

添加必要的新字段方便后续处理:

通过pivot方法做交叉透视查询(产品和日期维度交叉)结果如下:

看到该表的产品上方是日期&星期标题,而日期&星期具体数据上方则是收入标题,如何消除日期&星期标题收入标题呢?这样得到的就是一维数据表了。

关键步骤1-重置该透视表索引:

可以看到产品来到了数据帧里面,同时一个新的索引出现了,该索引是关键哦!!!!方便后续拼接数据。

关键步骤2-抽取日期对应的数据内容,数据索引还是那个新索引:

注意:这里得到的还是DataFrame即数据帧,这个部分就是透视表中的核心数值内容,但缺少产品名称。

关键步骤3-抽取产品名数据,数据索引还是那个共同的新索引:

关键步骤4-通过concat方法横向拼接两个数据得到结果:

最后把产品名称改为索引列如下:

是不是感觉到索引列十分有用和神奇哇!!

该一维结果集方便阅读同时方便其他处理,例如数据可视化(热力图)如下:

总结处理的全部过程,写成一个自定义函数来完成这个需求:

代码汇总如下:

#import seaborn to draw heatmap
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly_express as px
import seaborn as sns
import pandas as pd
import numpy as np
import datetime
import os
#Set work path
def Set_Work_Path(x):
    try:
        os.chdir(x) #Set work file path
        route = os.getcwd()
        print(route) #print the changed path
        return route
    except Exception:
        print("No Result")
work_path = r"E:\DATA\20211002"
Set_Work_Path(work_path)

#读取和检查数据
data = pd.read_excel("DATA-Heatmap.xlsx",header=0,sheet_name="DATA",engine="openpyxl")
display(data.head())
display(data.dtypes)

#构造新的字段方便后续分析
data["Weekday"] = data["Date"].dt.strftime("%a")
data["Date&Weekday"] = data["Date"].astype(str) +"-"+ data["Weekday"].astype(str)
display(data.head())

#通过pivot方法获取透视结果,纵轴显示产品而横轴显示日期和星期
pivot = pd.pivot_table(data,index=["Product"],columns=["Date&Weekday"],values=["Revenue"],aggfunc={"Revenue":np.sum},fill_value=0)
display(pivot)

#通过重置索引方便后续拼接数据
pivot.reset_index(level=0,inplace=True)
display(pivot)

#获取日期星期对应的数据和对应索引
target_content = pivot["Revenue"].astype(int)
display(target_content)
display(type(target_content))

#获取产品对应的数据和对应索引
target_column = pivot["Product"]
display(target_column)
display(type(target_column))

#把两个数据通过索引横向拼接在一起形成一维数据
target_data = pd.concat([target_column, target_content],axis=1) #concat two Dataframes with index
display(target_data)

#将产品重置为索引列
target_data.set_index("Product",inplace=True)
display(target_data)

#https://seaborn.pydata.org/tutorial/color_palettes.html#tools-for-choosing-color-palettes
def Get_Heatmap(X):
    f, ax = plt.subplots(figsize=(20,5))
    fig = sns.heatmap(X,annot=True,fmt="d",linewidths=0.5,cmap="RdBu_r") #Blues crest
    nowTime = datetime.datetime.now()
    Update_Time = nowTime.strftime('%Y-%m-%d-%H-%M')
    data_out_title = "Product-Revenue-Heatmap-"+Update_Time
    fig.set_title(label=data_out_title)
    fig.xaxis.set_ticks_position("top")
    return plt.show()
Get_Heatmap(target_data)

#定义一个降维函数
def Get_Pivot_To_df(X):
    try:
        pivot = pd.pivot_table(X,index=["Product"],columns=["Date&Weekday"],values=["Revenue"],aggfunc={"Revenue":np.sum},fill_value=0)
        pivot.reset_index(level=0,inplace=True)
        target_content = pivot["Revenue"].astype(int)
        target_column = pivot["Product"]
        target_data = pd.concat([target_column, target_content],axis=1) #concat two Dataframes with index
        target_data.set_index("Product",inplace=True)
        return target_data
    except Exception:
        pass
target = Get_Pivot_To_df(data)
display(target)

解决这个问题的关键就是重置索引后得到一个共同的新索引,新索引利用concat方法进行横向拼接,大家是不是也看明白了,如果有兴趣那就赶紧动手试一下哇!!!解决这个问题可能还有更简洁和优雅的办法,如果其他小伙伴恰好知道和熟悉别的途径,欢迎与本人分享和讨论。

END

我为人人,人人为我!!欢迎大家关注,点赞和转发!!!

~~人生不是赛场,梦想不容退场~~不断努力学习蜕变出一个更好的自己,不断分享学习路上的收获和感悟帮助他人成就自己!!!

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...