机器学习

lightgbm设置两个metric
机器学习

lightgbm设置两个metric

2 0

lightgbm可以自己创建metric函数,然后在train的时候赋值个feval即可。当我们使用两个metric时,一个是默认的,另一个是自己创建的,如果你设置早停的话,则当其中一个metric达到早停条件即会停止。结论:最好设置一个m...

使用k折交叉验证的原因
机器学习

使用k折交叉验证的原因

6 0

可以充分利用训练数据,k折交叉验证让所有的训练数据都参与到训练和测试中了。因为我们使用大部分数据进行拟合,这大大减少了偏差;因为大多数数据也用于验证集,所以还显著减少了方差。可以从中得到更多metric信息,k折交叉验证就会得到k个交叉验证...

SMOTEboost算法
机器学习

SMOTEboost算法

23 0

SMOTEboost算法是一种针对不平衡分类问题的算法。SMOTEboost结合了SMOTE和boosting,它希望利用SMOTE来增加对少数类样本的预测性能,利用boosting来提高整体精度。它的算法流程如下:训练数据集D={(x1,...

特征缩放对各种算法的影响
机器学习

特征缩放对各种算法的影响

40 0

我们知道最常见的特征缩放方法是标准化(Standardization)和归一化(Normalization),标准化是将数据缩放为均值为0,标准差为1的范围内,归一化是将特征缩放到[0,1]之间。然而在skleran库中,还有许多其他的缩放...

区分多分类问题的OneVsOne和OneVsAll方法
机器学习

区分多分类问题的OneVsOne和OneVsAll方法

56 0

OneVsAll和OneVsOne是对于二分类器如支持向量机解决多分类问题的两种解决办法。这篇文章主要讲一下他们之间的区别。假如数据有N个类别,OneVsAll将对N类中的每个类别训练一个分类器,对于class i,将label==i的样本...

N-grams简介:N-grams是什么以及我们用它干什么
机器学习

N-grams简介:N-grams是什么以及我们用它干什么

41 0

在这篇文章中,我将讨论N-gram,一种在自然语言处理(又名NLP)中建立的概念。首先,让我们看看“N-gram”这个词的含义。含义非常简单,N-gram就是一个N个词的序列。例如,让我们看看以下示例:San Francisco (is a...

回归问题中如何更好地利用MAE和MSE提高模型性能?
机器学习

回归问题中如何更好地利用MAE和MSE提高模型性能?

61 0

对于回归问题,它的损失函数一般有MSE,MAE两种,MSE对于偏离大的点惩罚较大,MAE对于偏离小的点惩罚较大,我们可以对具有异常点的数据做回归,结果如下图:可以看到MSE对偏离大的点重点惩罚,曲线也就偏向异常点了,而MAE则几乎无视了异常...

SMOTE算法的简单表述
机器学习

SMOTE算法的简单表述

179 0

SMOTE算法是过采样算法,出自JAIR'2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》,目的是为少数类合成新样本,以解决数据不平衡的问题。为表述简单,我们举例说...

sklearn.preprocessing中的Imputer用法解析
机器学习

sklearn.preprocessing中的Imputer用法解析

200 0

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。from sklearn.prep...