Pandas数据清洗

在数据处理的过程中，很多数据集存在数据缺失、错误、异常等情况，这些数据被称为脏数据，数据清洗的过程就是处理这些脏数据的过程。如无特殊说明，本章所使用数据为尿检结果.xls：

异常处理

isnull/isna
Pandas 的isnull方法等于isna方法（推荐用isna），是用来判断缺失值的，如果返回True则该单元格为空，返回False则该单元格非空。

1
2


data['血红蛋白'].isna() # 找出该列所有缺失值
data[data['血红蛋白'].isna()] # 取出缺失值所在行

notnull/notna
Pandas 的notnull方法等于notna方法（推荐用notna），是用来判断非缺失值的，如果返回True则该单元格为非空，返回False则该单元格空。

1
2


data['血红蛋白'].notna() # 找出该列所有非缺失值
data[data['血红蛋白'].notna()] # 取出非缺失值所在行

1

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数	解释
`how`	`any`代表删除所有存在缺失值的行/列，`all`表示删除全部为缺失值的行/列
`thresh`	某行/列的非空值超过`thresh`时不删除
`subset`	允许我们`drop`的行/列索引

1

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

1

DataFrame.duplicated(subset=None, keep='first')

参数	解释
`subset`	检查的列索引，默认检查所有
`keep`	第一次/最后一个重复值不设置为`True`；所有重复值设为`True`

1

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

本方法主要用于合并不同Pandas数据，函数原型和常用参数为¹：

1

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, erify_integrity=False, copy=True)

本方法主要用于合并不同Pandas数据，函数原型和常用参数为²：

1

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False)

本方法主要用于合并不同Pandas数据（与merge类似），函数原型和常用参数为：

1

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

本方法主要用于合并不同Pandas数据，是concat的简略形式，只能在axis=0上进行合并，函数原型为：

1

DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)

几种方法的差别

以上方法的区别在于：contact合并时直接在行/列方向拼接数据（并集）；merge通过一个或者多个键将两张表在行/列方向合并在一起（语法类似SQL语言，交集）；join根据索引进行列方向拼接（外联）；append用于行方向拼接数据。