机器学习

特征缩放对各种算法的影响
机器学习

特征缩放对各种算法的影响

30 0

我们知道最常见的特征缩放方法是标准化(Standardization)和归一化(Normalization),标准化是将数据缩放为均值为0,标准差为1的范围内,归一化是将特征缩放到[0,1]之间。然而在skleran库中,还有许多其他的缩放...

区分多分类问题的OneVsOne和OneVsAll方法
机器学习

区分多分类问题的OneVsOne和OneVsAll方法

49 0

OneVsAll和OneVsOne是对于二分类器如支持向量机解决多分类问题的两种解决办法。这篇文章主要讲一下他们之间的区别。假如数据有N个类别,OneVsAll将对N类中的每个类别训练一个分类器,对于class i,将label==i的样本...

回归问题中如何更好地利用MAE和MSE提高模型性能?
机器学习

回归问题中如何更好地利用MAE和MSE提高模型性能?

59 0

对于回归问题,它的损失函数一般有MSE,MAE两种,MSE对于偏离大的点惩罚较大,MAE对于偏离小的点惩罚较大,我们可以对具有异常点的数据做回归,结果如下图:可以看到MSE对偏离大的点重点惩罚,曲线也就偏向异常点了,而MAE则几乎无视了异常...

SMOTE算法的简单表述
机器学习

SMOTE算法的简单表述

176 0

SMOTE算法是过采样算法,出自JAIR'2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》,目的是为少数类合成新样本,以解决数据不平衡的问题。为表述简单,我们举例说...

sklearn.preprocessing中的Imputer用法解析
机器学习

sklearn.preprocessing中的Imputer用法解析

195 0

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。from sklearn.prep...

结构化数据和非结构化数据的区别
机器学习

结构化数据和非结构化数据的区别

63 0

结构化数据是可以用二维表表示的数据,就是可以读取为pandas的DataFrame格式的数据。非结构化数据包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。现在流行的深度学习图像处理、音频处理、NLP领域的数据都是...