chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

SMOTE算法的简单表述

SMOTE算法是过采样算法,出自JAIR'2002的文章《SMOTE:SyntheticMinorityOver-samplingTechnique》,目的是为少数类合成新样本,以解决数据不平衡的问题。为表述简单,我们举例说明。假设有一个数据集,有两个类A和B,A是少数类,B是多数类。为了让数据平衡,我们采用SMOTE算法对少数类A进行过采样,SMOTE算法过程是这样的:假设A类样本数为N,对于每个样本xi,执行下列操作:(1)在N个样本中取xi的k个近邻点,...
继续阅读

sklearn.preprocessing中的Imputer用法解析

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。fromsklearn.preprocessingimportImputerobj=Imputer(strategy='mean'obj.fit_transform([[1,2,&n...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com