跳到主要内容

Pandas

介绍

数据结构 时间序列 缺失值处理方式 常用数据处理方法

目标

掌握 pandas 处理缺失值的方法 熟悉 pandas 中的时间序列 掌握 pandas 中 dataframe 使用

优点

数据格式 - 高级数据结构 DataFrame 和Series 日期处理 - 时间序列的处理方式 文件操作 - 快捷对 CSV excel 和 TSV文件进行读写操作 数据分析

数据结构

Series - 简单看做一维数组 - 具有索引 - 可以使用字典、数组等数据进行创建 Dataframe - 多个 series 按行合并而成的二位数组、表格型 - 具有行索引和列索引 - 可以使用字典、数组、series 等数据进行创建

操作

创建 pd.Dataframe(data) 创建数据 查看 Df.head(n) # 查看前n条数据 Df.tail(n) # 查看后n条数据 数据属性 Df.index # 行索引 Df.columns # 列索引 Df.values # 原始数据 Df.shape # 行列数 数据统计量 Df.describe() # 数据描述 数据索引 Df.iloc[row_index, col_index] # 按索引获取数据 Df.loc[row_index, col_index] # 按行列名获取数据 Df.ix[row_index, col_index] # 按行列名获取数据 切片 按列表相同 按照 bool 切片


时间序列

形式 timestamp 特定时刻 period 固定时间 interval 时间间隔 操作 pd.Datatimeindex() # 时间索引 pd.to_datetime() # 时间格式解析 pd.date_range() # 时间戳 pd.period_range() # 生成日期 pd.timedelta_range # 时间差 减法操作 直接相减


数据处理

缺失值 NaN,填充,删除等操作 统计值 数据统计信息,均值、求和、累计等操作 可视化 可以直接使用绘图的形式来查看

缺失值处理

Df.isnull/Df.isna 空值、缺失值判断 Df.fillna(data) 填充缺失值 Df.dropna() 删除缺失值 NaN,NaT 空值、缺失值、时间信息缺失

数据处理

计算 Df.sum() # 求和 Df.mean() # 均值 统计量 Df.max() # 最大值 Df.min() # 最小值 Df.count() # 数量 Df.median() # 中位数 Df.std() # 标准差 累计 Df.cumsum() # 累计 排序 Df.sort_index() # 按索引排序 Df.rank() # 排名 分组 Df.groupby() # 分组 其他 Df.cov() # 协方差 Df.corrwith() # 相关系数 pd.cut() # 一维数据的区间分布

其他操作

excel to_excel/read_excel csv to_csv/read_csv 数据合并 df.append()/df.concat()

参考