chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

模型调参工具

optimizetools:scikit-optimize(Sequentialmodel-basedoptimizationwitha`scipy.optimize`interface),hyperopt(DistributedAsynchronousHyperparameterOptimizationinPython),optunasklearn-deap(Useevolutionaryalgorithmsinsteadofgridse...
继续阅读

独热编码与归一化的应用场景

基于树的方法是不需要独热编码和特征的归一化基于参数的模型或基于距离的模型,都是要进行特征的归一化将离散型特征进行one-hot编码的作用,是为了让距离计算更合理,但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。...
继续阅读

Data Leakage 详解

Data Leakage 详解
原文链接:kaggle什么是DataLeakage?数据泄漏是一个数据科学家必须理解的重要概念。如果你不知道如何防止数据泄漏发生,那么它将会频繁发生,而且它将会以最隐秘,最危险的方式摧毁你的模型。具体而言,数据泄漏会导值你的模型看起来很精确,但当你使用它是就会变得非常不精确。这篇教程会告诉你什么是数据泄漏以及如何避免数据泄露。主要有两种类型的数据泄漏:LeakyPredictors和LeakyValidationStrategies.LeakyPredictors当...
继续阅读

详解pd.factorize(),pd.get_dummies()和sklearn中的LabelEncoder和OnehotEncoder的区别

参考:网页链接这四种编码方式可以分为以下两类:(1)将分类变量编码为数字,Pandasfactorizeandscikit-learnLabelEncoder,结果是一维的;(2)将分类变量编码为虚拟(二进制)变量,Pandasget_dummiesandscikit-learnOneHotEncoder,结果是n维(n为类别个数)Pandas和sklearn编码的主要不同是sklearn编码器通过fit和transform方法用于sklearnpiplin...
继续阅读

数据科学家需要知道的5个基本统计概念

数据科学家需要知道的5个基本统计概念
原文链接:网页地址统计特征统计特征可能是数据科学中最常用的统计概念。它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。在代码中理解和实现都非常容易!请查看下面的箱型图来获取对各个概念的说明。中间的线是数据的中值,中值相对平均数来说更常用,因为中值对异常值的鲁棒性更好。第一个四分位点即第25个百分位点,第三个四分位点即75%的位置,最大值和最小值分别位于数据的最顶端和最下端。箱形图完美地说明了我们可以用基本统计特征做什么:(1)当箱...
继续阅读

为了性能,请停止使用pip安装tensorflow!

为了性能,请停止使用pip安装tensorflow!
使用pip停止安装Tensorflow!请改用conda。如果您不知道conda是什么,它是一个跨平台运行的开源软件包和环境管理系统。因此它适用于Mac,Windows和Linux。如果你还没有使用conda,我建议你开始,因为它使管理你的数据科学工具更加愉快。以下是使用conda而不是pip安装Tensorflow的两个非常重要的原因。CPU性能更快condaTensorflow软件包利用用于深度神经网络的英特尔数学核心库或从1.9.0版本开始的MKL-DNN。...
继续阅读

Ridge,Lasso,ElasticNet的目标函数

Ridge,Lasso,ElasticNet的目标函数
...
继续阅读

梯度下降优化算法

在前一篇介绍梯度下降的文章中,介绍了梯度下降的三种方法和实现。但是它们有一些挑战:选择合适的学习率可能很困难。学习率太小会导致收敛缓慢,而学习率过大会妨碍收敛并导致损失函数在最小值附近波动甚至发散。学习率表(Learningrateschedules)尝试通过退火调整训练期间的学习率。即根据预定的时间表或当迭代时的目标变化低于阈值时降低学习速率。但是,这些时间表和阈值必须提前定义,因此无法适应数据集的特征。此外,相同的学习率适用于所有参数更新。如果我们的数据稀疏且我们的特...
继续阅读

从零开始实现梯度下降算法

从零开始实现梯度下降算法
机器学习最终归结为最优化问题,即最优化损失函数。而求解最优化问题最常用的方法就是梯度下降算法。梯度下降算法有三种:全批量梯度下降(Batchgradientdecent)、随机梯度下降(SGD)、小批量梯度下降(mini-batchgradientdecent)。下面首先简要介绍以下这三种算法,然后根据预测房价问题从零实现这三种梯度下降算法。一、三种梯度下降算法全批量梯度下降全批量梯度下降使用所有样本计算梯度,更新参数时使用所有样本来进行更新。============...
继续阅读

为回归问题选择最佳的机器学习算法

为回归问题选择最佳的机器学习算法
当接触任何类型的机器学习(ML)问题时,有许多不同的算法可供选择。在机器学习中,有一种称为“天下无免费午餐”的定理,它表明基本上没有一种ML算法适合所有问题。不同ML算法的性能很大程度上取决于数据的大小和结构。因此,如何选择正确的算法通常仍然不清楚,我们智能直接通过普通的试验和误差测试我们的算法。但是,每个ML算法都有一些优点和缺点,我们可以将其作为指导。虽然一种算法并不总是优于另一种算法,但我们可以使用每种算法的一些属性作为快速选择正确算法和调整超参数的指南。我们...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com