赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

Ridge,Lasso,ElasticNet的目标函数

Ridge,Lasso,ElasticNet的目标函数
...
继续阅读

梯度下降优化算法

在前一篇介绍梯度下降的文章中,介绍了梯度下降的三种方法和实现。但是它们有一些挑战:选择合适的学习率可能很困难。学习率太小会导致收敛缓慢,而学习率过大会妨碍收敛并导致损失函数在最小值附近波动甚至发散。学习率表(Learningrateschedules)尝试通过退火调整训练期间的学习率。即根据预定的时间表或当迭代时的目标变化低于阈值时降低学习速率。但是,这些时间表和阈值必须提前定义,因此无法适应数据集的特征。此外,相同的学习率适用于所有参数更新。如果我们的数据稀疏且我们的特...
继续阅读

从零开始实现梯度下降算法

从零开始实现梯度下降算法
机器学习最终归结为最优化问题,即最优化损失函数。而求解最优化问题最常用的方法就是梯度下降算法。梯度下降算法有三种:全批量梯度下降(Batchgradientdecent)、随机梯度下降(SGD)、小批量梯度下降(mini-batchgradientdecent)。下面首先简要介绍以下这三种算法,然后根据预测房价问题从零实现这三种梯度下降算法。一、三种梯度下降算法全批量梯度下降全批量梯度下降使用所有样本计算梯度,更新参数时使用所有样本来进行更新。============...
继续阅读

为回归问题选择最佳的机器学习算法

为回归问题选择最佳的机器学习算法
当接触任何类型的机器学习(ML)问题时,有许多不同的算法可供选择。在机器学习中,有一种称为“天下无免费午餐”的定理,它表明基本上没有一种ML算法适合所有问题。不同ML算法的性能很大程度上取决于数据的大小和结构。因此,如何选择正确的算法通常仍然不清楚,我们智能直接通过普通的试验和误差测试我们的算法。但是,每个ML算法都有一些优点和缺点,我们可以将其作为指导。虽然一种算法并不总是优于另一种算法,但我们可以使用每种算法的一些属性作为快速选择正确算法和调整超参数的指南。我们...
继续阅读

机器学习完整解决流程演练 part2

机器学习完整解决流程演练 part2
机器学习是一个强大的框架,从外部可能看起来复杂和令人生畏。然而,一旦我们将问题分解为其组件步骤,我们就会发现机器学习实际上只是一系列可理解的过程,每个过程都很简单。在本文中,我们将继续介绍哥斯达黎加预测贫困的方法,进行模型优化,解释模型,并尝试一些实验技术。ModelOptimization模型优化意味着在交叉验证中选择能产生最优模型的超参数。由于最佳超参数因数据而异,因此我们必须优化-也称为调整(tuning)-我们数据的模型。我喜欢将调优视为寻找机器学习模型的最...
继续阅读

Micro average和Macro average在多分类问题中的区别

原文链接:网页链接Macro-averages和Micro-averages(对于任何评价指标)计算方式有所不同,所以对它们的解释也不同。Macro-average会分别计算每个类别的metric,然后求它们的平均值(它认为每个类别是等同的)。而Micro-average将汇总所有类别的贡献以计算平均指标。所以如果你处理的多分类问题是类偏斜的,应该使用Micro-average。为了更加清晰地...
继续阅读

机器学习完整解决流程演练 part1

机器学习完整解决流程演练 part1
原文链接:网页链接作者:WilliamKoehrsen在这个系列中,我们要完成一个完整的机器学习项目,关于“DataScienceforGood”问题,这个问题目标是预测哥斯达黎加的家庭贫困情况。这是一个kaggle竞赛,完整代码见作者的github和JupyternotebookonKaggle。ProblemandApproach这个竞赛的目标是使用个人和家庭社会经济指标来预测家庭贫困。美洲开发银行(IDB)开发了这一问题,并提供了数据,目的是改进确定...
继续阅读

可视化随机森林中的决策树

可视化随机森林中的决策树
环境:win10python3.6.1使用工具:Graphviz下载地址下载后将bin目录添加到环境变量中数据集:sklearn中自带的iris数据集参考:HowtoVisualizeaDecisionTreefromaRandomForestinPythonusingScikit-Learn结果:第一步:训练模型fromsklearn.datasetsimportloa...
继续阅读

(转)对特征选择的理解

特征选择相关文献:AnIntroductiontoVariableandFeatureSelection,Guyon,2003.FeatureSelectionAlgorithms:ASurveyandExperimentalEvaluation,Molina,2002.米歇尔的《机器学习》一书.另外这个问题其实可以分为特征提取和特征选择两大类,前者包括了诸如PCA,LDA,SVM等及其变种;后者又主要分为Filter和Wrapper。对于Fi...
继续阅读

网飞数据科学家教你如何成为一个数据科学家

数据科学家是一个众说纷纭的术语。对一些人来说,它意味这数据分析;对另一些人来说,它是机器学习的代名词,还有一些人认为它就是解决一些数据工程项目。作为数据科学家要承担宽泛的责任,而且公司之间甚至公司的团队之间所承担的责任都有所不同,这使得数据科学家的身份定义很模糊。你必须与公司X的数据科学家进行具体的交谈才能了解这个公司是如何看待数据科学的。网飞组织的这个关注数据科学的第三方WiBD研讨会对我们来说,是一个极好的机会,让我们能够了解网飞的故事。信息不对称是一个不幸的事实,阻碍了...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com