Pandas
介绍
数据结构 时间 序列 缺失值处理方式 常用数据处理方法
目标
掌握 pandas 处理缺失值的方法 熟悉 pandas 中的时间序列 掌握 pandas 中 dataframe 使用
优点
数据格式 - 高级数据结构 DataFrame 和Series 日期处理 - 时间序列的处理方式 文件操作 - 快捷对 CSV excel 和 TSV文件进行读写操作 数据分析
数据结构
Series - 简单看做一维数组 - 具有索引 - 可以使用字典、数组等数据进行创建 Dataframe - 多个 series 按行合并而成的二位数组、表格型 - 具有行索引和列索引 - 可以使用字典、数组、series 等数据进行创建
操作
创建 pd.Dataframe(data) 创建数据 查看 Df.head(n) # 查看前n条数据 Df.tail(n) # 查看后n条数据 数据属性 Df.index # 行索引 Df.columns # 列索引 Df.values # 原始数据 Df.shape # 行列数 数据统计量 Df.describe() # 数据描述 数据索引 Df.iloc[row_index, col_index] # 按索引获取数据 Df.loc[row_index, col_index] # 按行列名获取数据 Df.ix[row_index, col_index] # 按行列名获取数据 切片 按列表相同 按照 bool 切片