赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

数据科学家需要知道的5个基本统计概念

数据科学家需要知道的5个基本统计概念
原文链接:网页地址统计特征统计特征可能是数据科学中最常用的统计概念。它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。在代码中理解和实现都非常容易!请查看下面的箱型图来获取对各个概念的说明。中间的线是数据的中值,中值相对平均数来说更常用,因为中值对异常值的鲁棒性更好。第一个四分位点即第25个百分位点,第三个四分位点即75%的位置,最大值和最小值分别位于数据的最顶端和最下端。箱形图完美地说明了我们可以用基本统计特征做什么:(1)当箱...
继续阅读

为了性能,请停止使用pip安装tensorflow!

为了性能,请停止使用pip安装tensorflow!
使用pip停止安装Tensorflow!请改用conda。如果您不知道conda是什么,它是一个跨平台运行的开源软件包和环境管理系统。因此它适用于Mac,Windows和Linux。如果你还没有使用conda,我建议你开始,因为它使管理你的数据科学工具更加愉快。以下是使用conda而不是pip安装Tensorflow的两个非常重要的原因。CPU性能更快condaTensorflow软件包利用用于深度神经网络的英特尔数学核心库或从1.9.0版本开始的MKL-DNN。...
继续阅读

Ridge,Lasso,ElasticNet的目标函数

Ridge,Lasso,ElasticNet的目标函数
...
继续阅读

梯度下降优化算法

在前一篇介绍梯度下降的文章中,介绍了梯度下降的三种方法和实现。但是它们有一些挑战:选择合适的学习率可能很困难。学习率太小会导致收敛缓慢,而学习率过大会妨碍收敛并导致损失函数在最小值附近波动甚至发散。学习率表(Learningrateschedules)尝试通过退火调整训练期间的学习率。即根据预定的时间表或当迭代时的目标变化低于阈值时降低学习速率。但是,这些时间表和阈值必须提前定义,因此无法适应数据集的特征。此外,相同的学习率适用于所有参数更新。如果我们的数据稀疏且我们的特...
继续阅读

从零开始实现梯度下降算法

从零开始实现梯度下降算法
机器学习最终归结为最优化问题,即最优化损失函数。而求解最优化问题最常用的方法就是梯度下降算法。梯度下降算法有三种:全批量梯度下降(Batchgradientdecent)、随机梯度下降(SGD)、小批量梯度下降(mini-batchgradientdecent)。下面首先简要介绍以下这三种算法,然后根据预测房价问题从零实现这三种梯度下降算法。一、三种梯度下降算法全批量梯度下降全批量梯度下降使用所有样本计算梯度,更新参数时使用所有样本来进行更新。============...
继续阅读

为回归问题选择最佳的机器学习算法

为回归问题选择最佳的机器学习算法
当接触任何类型的机器学习(ML)问题时,有许多不同的算法可供选择。在机器学习中,有一种称为“天下无免费午餐”的定理,它表明基本上没有一种ML算法适合所有问题。不同ML算法的性能很大程度上取决于数据的大小和结构。因此,如何选择正确的算法通常仍然不清楚,我们智能直接通过普通的试验和误差测试我们的算法。但是,每个ML算法都有一些优点和缺点,我们可以将其作为指导。虽然一种算法并不总是优于另一种算法,但我们可以使用每种算法的一些属性作为快速选择正确算法和调整超参数的指南。我们...
继续阅读

机器学习完整解决流程演练 part2

机器学习完整解决流程演练 part2
机器学习是一个强大的框架,从外部可能看起来复杂和令人生畏。然而,一旦我们将问题分解为其组件步骤,我们就会发现机器学习实际上只是一系列可理解的过程,每个过程都很简单。在本文中,我们将继续介绍哥斯达黎加预测贫困的方法,进行模型优化,解释模型,并尝试一些实验技术。ModelOptimization模型优化意味着在交叉验证中选择能产生最优模型的超参数。由于最佳超参数因数据而异,因此我们必须优化-也称为调整(tuning)-我们数据的模型。我喜欢将调优视为寻找机器学习模型的最...
继续阅读

Micro average和Macro average在多分类问题中的区别

原文链接:网页链接Macro-averages和Micro-averages(对于任何评价指标)计算方式有所不同,所以对它们的解释也不同。Macro-average会分别计算每个类别的metric,然后求它们的平均值(它认为每个类别是等同的)。而Micro-average将汇总所有类别的贡献以计算平均指标。所以如果你处理的多分类问题是类偏斜的,应该使用Micro-average。为了更加清晰地...
继续阅读

机器学习完整解决流程演练 part1

机器学习完整解决流程演练 part1
原文链接:网页链接作者:WilliamKoehrsen在这个系列中,我们要完成一个完整的机器学习项目,关于“DataScienceforGood”问题,这个问题目标是预测哥斯达黎加的家庭贫困情况。这是一个kaggle竞赛,完整代码见作者的github和JupyternotebookonKaggle。ProblemandApproach这个竞赛的目标是使用个人和家庭社会经济指标来预测家庭贫困。美洲开发银行(IDB)开发了这一问题,并提供了数据,目的是改进确定...
继续阅读

可视化随机森林中的决策树

可视化随机森林中的决策树
环境:win10python3.6.1使用工具:Graphviz下载地址下载后将bin目录添加到环境变量中数据集:sklearn中自带的iris数据集参考:HowtoVisualizeaDecisionTreefromaRandomForestinPythonusingScikit-Learn结果:第一步:训练模型fromsklearn.datasetsimportloa...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com