Python中的数据导入与查询_python如何导入数据文件
wptr33 2025-09-01 15:50 38 浏览
适用场景:
- 快速导入文本/Excel数据 → Pandas
- 读取大型数值数据 → Numpy
- 处理复杂二进制文件 → h5py/scipy.io
- 数据库交互 → SQLAlchemy + Pandas
一、数据导入
1. 通用基础
- 库声明:
- import numpy as np
import pandas as pd
2. 文本文件
- 原生读写:
- file = open('huck_finn.txt', 'r')
text = file.read() # 读取全部内容
file.close() # 关闭文件
print(file.closed) # 检查是否关闭 - 上下文管理器(推荐):
- with open('huck_finn.txt', 'r') as file:
print(file.readline()) # 逐行读取 - Numpy 导入:
- 单数据类型:
- data = np.loadtxt('mnist.txt', delimiter=',', skiprows=2, usecols=[0,2], dtype=str)
- 多数据类型:
- data = np.genfromtxt('titanic.csv', delimiter=',', names=True, dtype=None)
data = np.recfromcsv('titanic.csv') # 等效简写 - Pandas 导入:
- data = pd.read_csv(
'winequality-red.csv',
nrows=5, # 读取前5行
header=None, # 无列名
sep='\t', # Tab分隔
comment='#', # 注释标识符
na_values=[""] # 定义缺失值
)
3. Excel文件
file = 'urbanpop.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse('1960-1966', skiprows=[0], names=['Country', 'AAM: War(2002)'])
sheet_names = data.sheet_names # 获取所有sheet名称4. 统计软件文件
- SAS:
- from sas7bdat import SAS7BDAT
with SAS7BDAT('urbanpop.sas7bdat') as file:
df_sas = file.to_data_frame() - Stata:
- data = pd.read_stata('urbanpop.dta')
5. 关系型数据库
- 连接与查询:
- from sqlalchemy import create_engine
engine = create_engine('sqlite:///Northwind.sqlite')
table_names = engine.table_names() # 获取所有表名
# 手动查询
with engine.connect() as con:
rs = con.execute("SELECT OrderID FROM Orders")
df = pd.DataFrame(rs.fetchmany(size=5))
df.columns = rs.keys()
# Pandas直接查询
df = pd.read_sql_query("SELECT * FROM Orders", engine)
6. 二进制文件
- Pickle:
- import pickle
with open('pickled_fruit.pkl', 'rb') as file:
pickled_data = pickle.load(file) - HDF5:
- import h5py
data = h5py.File('filename.hdf5', 'r')
# 结构查看
print(data.keys())
print(data['meta']['Description'].value) # 提取元数据 - Matlab:
- import scipy.io
mat = scipy.io.loadmat('workspace.mat')
二、数据探索
1. Numpy数组
data_array.dtype # 数据类型
data_array.shape # 维度 (行, 列)
len(data_array) # 数组长度2. Pandas DataFrame
df.head() # 前5行
df.tail(3) # 后3行
df.index # 查看索引
df.columns # 查看列名
df.info() # 各列详细信息 (数据类型、非空值数量)
data_array = df.values # 转为Numpy数组三、文件系统操作
魔法命令(Jupyter)
%pwd # 当前路径
%ls # 列出目录内容
%cd .. # 切换到上级目录os模块
import os
os.getcwd() # 当前工作目录
os.listdir() # 目录内容列表
os.chdir('/path') # 切换路径
os.rename('old.txt', 'new.txt') # 重命名
os.mkdir('newdir') # 创建目录
os.remove('file.txt') # 删除文件 四、关键注意事项
- 上下文管理器:优先使用 with open(...) 管理资源,避免手动关闭文件。
- 大文件读取:使用 nrows 或 chunksize 分块读取,减少内存消耗。
- 缺失值处理:定义 na_values 参数以正确识别缺失值。
- 结构化数据:
- Numpy的 genfromtxt 适合混合数据类型。
- Pandas的 read_csv 更适合表格数据(自动处理列名、索引)。
相关推荐
- oracle数据导入导出_oracle数据导入导出工具
-
关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...
- 继续学习Python中的while true/break语句
-
上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个...
- python continue和break的区别_python中break语句和continue语句的区别
-
python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...
- 简单学Python——关键字6——break和continue
-
Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...
- 2-1,0基础学Python之 break退出循环、 continue继续循环 多重循
-
用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...
- Python 中 break 和 continue 傻傻分不清
-
大家好啊,我是大田。...
- python中的流程控制语句:continue、break 和 return使用方法
-
Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...
- L017:continue和break - 教程文案
-
continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...
- 作为前端开发者,你都经历过怎样的面试?
-
已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...
- 面试被问 const 是否不可变?这样回答才显功底
-
作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...
- 2023金九银十必看前端面试题!2w字精品!
-
导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。...
- 前端面试总结_前端面试题整理
-
记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...
- 由浅入深,66条JavaScript面试知识点(七)
-
作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录...
- 2024前端面试真题之—VUE篇_前端面试题vue2020及答案
-
添加图片注释,不超过140字(可选)...
- 今年最常见的前端面试题,你会做几道?
-
在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...
- 一周热门
- 最近发表
-
- oracle数据导入导出_oracle数据导入导出工具
- 继续学习Python中的while true/break语句
- python continue和break的区别_python中break语句和continue语句的区别
- 简单学Python——关键字6——break和continue
- 2-1,0基础学Python之 break退出循环、 continue继续循环 多重循
- Python 中 break 和 continue 傻傻分不清
- python中的流程控制语句:continue、break 和 return使用方法
- L017:continue和break - 教程文案
- 作为前端开发者,你都经历过怎样的面试?
- 面试被问 const 是否不可变?这样回答才显功底
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)
