特征缩放对各种算法的影响

我们知道最常见的特征缩放方法是标准化(Standardization)和归一化(Normalization),标准化是将数据缩放为均值为0,标准差为1的范围内,归一化是将特征缩放到[0,1]之间。

然而在skleran库中,还有许多其他的缩放方法。主要有以下几种:

StandardScaler

MinMaxScaler

MaxAbsScaler

RobustScaler

QuantileTransformer-Normal

QuantileTransformer-Uniform

PowerTransformer-Yeo-Johnson

Normalizer


使用各种缩放方法可以显著提高分类任务的分数,所以应该将缩放方法作为超参数;

缩放方法对不同分类器有不同的影响,基于距离的分类器可以从缩放中受益。但是即使与某些缩放方法无关的树模型也可以从其他的缩放方法中受益;

NB,RF,LDA,CART不受某些缩放方法的影响。当然,这与每个分类器的工作方式有关。树不受缩放影响,因为分割标准首先对每个要素的值进行排序,然后计算分割的gini \熵。一些缩放方法保持此顺序,因此不会更改准确度分数。 
NB不受影响,因为模型的先验由每个类中的计数决定,而不是由实际值决定。线性判别分析(LDA)使用类之间的变化找到它的系数
,因此缩放也无关紧要。一些缩放方法,如QuantileTransformer-Uniform,不会保留每个要素中值的确切顺序,因此即使在上述与其他缩放方法无关的分类器中,得分也会发生变化。

树模型不会从StandardScaler中获益,可以使其获益的缩放方法有Normalizer,QuantileTransformer-UniformQuantileTransformer-Normal;

PCA往往能从缩放中获益。


参考:https://towardsdatascience.com/normalization-vs-standardization-quantitative-analysis-a91e8a79cebf

评论

Live Sex Cams Free