中国高校课件下载中心 》 教学资源 》 大学文库

《Python数据分析》课程电子教案(PPT课件)第5章 Pandas数据载入与预处理

文档信息
资源类别:文库
文档格式:PPTX
文档页数:52
文件大小:1.07MB
团购合买:点击进入团购
内容简介
《Python数据分析》课程电子教案(PPT课件)第5章 Pandas数据载入与预处理
刷新页面文档预览

Python数据分析 第 5 章 Pandas数据载入与预处理

第 5 章 Pandas数据载入与预处理 • 对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件、 Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据 格式,处理完成后再存储到相应的外部文件中。 • NumPy常用的导入格式:import pandas as pd

1.文本文件读取 文本文件是一种由若干行字符构成的计算机文件,它是一 种典型的顺序文件。 ❖ 5.1.1 读/写文本文件 5.1 数据载入

1.文本文件读取 txt文件:是Windows操作系统上附带的一种文本格式,文件 以.txt为后缀。 CSV文件:是Comma-Separated Values的缩写,用半角逗 号(’,’)作为字段值的分隔符。 5.1 数据载入

1.文本文件读取 Pandas中使用read_table来读取文本文件: pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) Pandas中使用read_csv函数来读取CSV文件: pandas.read_csv(filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) 5.1 数据载入

5.1 数据载入 参数名称 说明 filepath 接收string,代表文件路径,无默认 sep 接收string,代表分隔符。read_csv默认为“,”,read_table默认为制表符 “\t”,如果分隔符指定错误,在读取数据的时候,每一行数据将连成一片 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收array,表示列名,默认为None index_col 接收int、sequence或False,表示索引列的位置,取值为sequence则代 表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values),默 认为None engine 接收c或者python,代表数据解析引擎,默认为c nrows 接收int,表示读取前n行,默认为None 表5-1 read_table和read_csv常用参数及其说明

5.1 数据载入

2. 文本文件的存储 文本文件的存储和读取类似,结构化数据可以通过pandas中 的to_csv函数实现以CSV文件格式存储文件。 DataFrame.to_csv(path_or_buf = None, sep = ’,’, na_rep, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None) 5.1 数据载入

• 5.1.2 读/写Excel文件 1. Excel文件的读取 Pandas提供了read_excel函数读取“xls”和“xlsx”两种excel文件, 其格式为: pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype) read_excel函数和read_table函数的部分参数相同 5.1 数据载入

表5-2 Pandas读写Excel文件 参数名称 说明 io 接收string,表示文件路径,无默认 sheetname 接收string、int,代表excel表内数据的分表位置,默认为0 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None index_col 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values), 默认为None 5.1 数据载入

刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档