chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

sklearn.preprocessing中的Imputer用法解析

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。


from sklearn.preprocessing import Imputer
obj = Imputer(strategy='mean')

obj.fit_transform([[1, 2, 3], [2, 3, 4]])#计算训练数据的统计值并填充缺失值
print(obj.statistics_)
# array([ 1.5,  2.5,  3.5])

X = obj.transform([[4, np.nan, 6], [5, 6, np.nan]])#应用训练数据的统计值填充测试数据的缺失值
print(X)
# array([[ 4. ,  2.5,  6. ],
#        [ 5. ,  6. ,  3.5]])

参考链接:网页地址


发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com