《Python数据分析》课程电子教案(PPT课件)第5章 Pandas数据载入与预处理

Python数据分析 第 5 章 Pandas数据载入与预处理

第 5 章 Pandas数据载入与预处理 • 对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件、 Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据 格式,处理完成后再存储到相应的外部文件中。 • NumPy常用的导入格式:import pandas as pd

1.文本文件读取 文本文件是一种由若干行字符构成的计算机文件,它是一 种典型的顺序文件。 ❖ 5.1.1 读/写文本文件 5.1 数据载入

1.文本文件读取 txt文件:是Windows操作系统上附带的一种文本格式,文件 以.txt为后缀。 CSV文件:是Comma-Separated Values的缩写,用半角逗 号(’,’)作为字段值的分隔符。 5.1 数据载入

1.文本文件读取 Pandas中使用read_table来读取文本文件: pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) Pandas中使用read_csv函数来读取CSV文件: pandas.read_csv(filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) 5.1 数据载入

5.1 数据载入 参数名称 说明 filepath 接收string,代表文件路径,无默认 sep 接收string,代表分隔符。read_csv默认为“,”,read_table默认为制表符 “\t”,如果分隔符指定错误,在读取数据的时候,每一行数据将连成一片 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收array,表示列名,默认为None index_col 接收int、sequence或False,表示索引列的位置,取值为sequence则代 表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values),默 认为None engine 接收c或者python,代表数据解析引擎,默认为c nrows 接收int,表示读取前n行,默认为None 表5-1 read_table和read_csv常用参数及其说明

5.1 数据载入

2. 文本文件的存储 文本文件的存储和读取类似,结构化数据可以通过pandas中 的to_csv函数实现以CSV文件格式存储文件。 DataFrame.to_csv(path_or_buf = None, sep = ’,’, na_rep, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None) 5.1 数据载入

• 5.1.2 读/写Excel文件 1. Excel文件的读取 Pandas提供了read_excel函数读取“xls”和“xlsx”两种excel文件, 其格式为: pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype) read_excel函数和read_table函数的部分参数相同 5.1 数据载入

表5-2 Pandas读写Excel文件 参数名称 说明 io 接收string,表示文件路径,无默认 sheetname 接收string、int,代表excel表内数据的分表位置,默认为0 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None index_col 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values), 默认为None 5.1 数据载入
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《Python数据分析》课程电子教案(PPT课件)第4章 pandas统计分析基础.pptx
- 《Python数据分析》课程电子教案(PPT课件)第3章 NumPy数值计算基础.pptx
- 《Python数据分析》课程电子教案(PPT课件)第2章 Python编程基础.pptx
- 《Python数据分析》课程电子教案(PPT课件)第1章 数据分析与可视化概述新.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第10章 排序 10.8 外排序.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第10章 排序 10.5 归并排序 10.6 基数排序 10.7 各种内排序方法的比较和选择.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第10章 排序 10.4 选择排序.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第10章 排序 10.1 排序的基本概念 10.2 插入排序 10.3 交换排序.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第9章 查找 9.4 哈希表查找.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第9章 查找 9.3 树表的查找(2/2).pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第9章 查找 9.3 树表的查找(1/2).pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第9章 查找 9.1 查找的基本概念 9.2 线性表的查找.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第8章 图 8.6 拓扑排序 8.7 AOE网与关键路径.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第8章 图 8.5 最短路径.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第8章 图 8.4 生成树和最小生成树.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第8章 图 8.3 图的遍历.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第8章 图 8.1 图的基本概念 8.2 图的存储结构.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第7章 树和二叉树 7.9 树算法设计和并查集.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第7章 树和二叉树 7.6 线索二叉树 7.7 哈夫曼树 7.8 二叉树与树、森林之间的转换.pptx
- 河池学院:《数据结构》课程电子教案(PPT教学课件)第7章 树和二叉树 7.4 二叉树的层次遍历 7.5 二叉树的构造.pptx
- 《Python数据分析》课程电子教案(PPT课件)第6章 Matplotlib数据可视化基础.pptx
- 《Python数据分析》课程电子教案(PPT课件)第7章 利用Seaborn绘图.pptx
- 《Python数据分析》课程电子教案(PPT课件)第8章 pyecharts可视化.pptx
- 《Python数据分析》课程电子教案(PPT课件)第9章 时间序列数据分析.pptx
- 《Python数据分析》课程电子教案(PPT课件)第10章 SciPy科学计算.pptx
- 《R语言》课程教学资源(PPT课件)第01章 进入R的世界.pptx
- 《R语言》课程教学资源(PPT课件)第02章 R语言基础.pptx
- 《R语言》课程教学资源(PPT课件)第03章 R函数与流程控制.pptx
- 《R语言》课程教学资源(PPT课件)第04章.pptx
- 《R语言》课程教学资源(PPT课件)第05章 基本图形.pptx
- 《R语言》课程教学资源(PPT课件)第06章 数据预处理.pptx
- 《R语言》课程教学资源(PPT课件)第07章 数据处理与描述性统计.pptx
