一、缺失值处理
1、如何处理nan
两种思路:
(1)如果样本量很大,可以删除含有缺失值的样本
(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)
2、判断数据是否为nan
pd.isnull(df)
pd.notnull(df)
3、缺失值处理方式
存在缺失值nan,并且是np.nan
(1)dropna(axis='rows')
删除存在缺失值
(2)fillna(value, inplace=True)
替换缺失值
说明:
value:替换成的值
inplace:
True:会修改原数据
False:不替换修改原数据,生成新的对象
(3)缺失值不是nan,是其他标记的
后面再说
二、缺失值处理实例
1、电影数据文件获取