赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

np.linalg.norm()求向量的范数

np.linalg.norm()求向量的范数
0-范数,向量中非零元素的个数。1-范数,为绝对值之和。2-范数,就是通常意义上的模。无穷范数,就是取向量的最大值。np.linalg.norm(默认求2-范数函数参数:x_norm=np.linalg.norm(x,ord=None,axis=None,keepdims=False-x为向量或矩阵-ord=1,2,np.inf(分别求1范数,2范数,无穷范数)-axis=None求矩阵范数,=0求所有列向量的范数,=1求所有行向量的范...
继续阅读

为回归问题选择最佳的机器学习算法

为回归问题选择最佳的机器学习算法
当接触任何类型的机器学习(ML)问题时,有许多不同的算法可供选择。在机器学习中,有一种称为“天下无免费午餐”的定理,它表明基本上没有一种ML算法适合所有问题。不同ML算法的性能很大程度上取决于数据的大小和结构。因此,如何选择正确的算法通常仍然不清楚,我们智能直接通过普通的试验和误差测试我们的算法。但是,每个ML算法都有一些优点和缺点,我们可以将其作为指导。虽然一种算法并不总是优于另一种算法,但我们可以使用每种算法的一些属性作为快速选择正确算法和调整超参数的指南。我们...
继续阅读

机器学习完整解决流程演练 part2

机器学习完整解决流程演练 part2
机器学习是一个强大的框架,从外部可能看起来复杂和令人生畏。然而,一旦我们将问题分解为其组件步骤,我们就会发现机器学习实际上只是一系列可理解的过程,每个过程都很简单。在本文中,我们将继续介绍哥斯达黎加预测贫困的方法,进行模型优化,解释模型,并尝试一些实验技术。ModelOptimization模型优化意味着在交叉验证中选择能产生最优模型的超参数。由于最佳超参数因数据而异,因此我们必须优化-也称为调整(tuning)-我们数据的模型。我喜欢将调优视为寻找机器学习模型的最...
继续阅读

Micro average和Macro average在多分类问题中的区别

原文链接:网页链接Macro-averages和Micro-averages(对于任何评价指标)计算方式有所不同,所以对它们的解释也不同。Macro-average会分别计算每个类别的metric,然后求它们的平均值(它认为每个类别是等同的)。而Micro-average将汇总所有类别的贡献以计算平均指标。所以如果你处理的多分类问题是类偏斜的,应该使用Micro-average。为了更加清晰地...
继续阅读

机器学习完整解决流程演练 part1

机器学习完整解决流程演练 part1
原文链接:网页链接作者:WilliamKoehrsen在这个系列中,我们要完成一个完整的机器学习项目,关于“DataScienceforGood”问题,这个问题目标是预测哥斯达黎加的家庭贫困情况。这是一个kaggle竞赛,完整代码见作者的github和JupyternotebookonKaggle。ProblemandApproach这个竞赛的目标是使用个人和家庭社会经济指标来预测家庭贫困。美洲开发银行(IDB)开发了这一问题,并提供了数据,目的是改进确定...
继续阅读

可视化随机森林中的决策树

可视化随机森林中的决策树
环境:win10python3.6.1使用工具:Graphviz下载地址下载后将bin目录添加到环境变量中数据集:sklearn中自带的iris数据集参考:HowtoVisualizeaDecisionTreefromaRandomForestinPythonusingScikit-Learn结果:第一步:训练模型fromsklearn.datasetsimportloa...
继续阅读

(转)对特征选择的理解

特征选择相关文献:AnIntroductiontoVariableandFeatureSelection,Guyon,2003.FeatureSelectionAlgorithms:ASurveyandExperimentalEvaluation,Molina,2002.米歇尔的《机器学习》一书.另外这个问题其实可以分为特征提取和特征选择两大类,前者包括了诸如PCA,LDA,SVM等及其变种;后者又主要分为Filter和Wrapper。对于Fi...
继续阅读

(转)python中matplotlib的颜色及线条控制

出处:http://www.cnblogs.com/darkknightzh/p/6117528.html参考链接:http://stackoverflow.com/questions/22408237/named-colors-in-matplotlibhttp://stackoverflow.com/questions/8409095/matplotlib-set-markers-for-individual-points-on-a-line第二个参考网址给出了lines...
继续阅读

Unofficial Windows Binaries for Python Extension Packages(python第三方扩展包(windows二进制文件)下载网站)

Unofficial Windows Binaries for Python Extension Packages(python第三方扩展包(windows二进制文件)下载网站)
网站地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站有很多python第三方扩展包的windows二进制文件,节省了某些包在windows下编译的步骤,只要下好对应window位数和python版本的.whl文件,然后pipinstll文件名即安装成功。例如XGBOOST的官网安装教程需要在windows下进行繁琐的编译,而现在你只需要在这个网站下载对应版本的xgboost文件进行安装即可。使用方法:第一步:下载比方说我...
继续阅读

为什么说SVM在处理小样本问题上有优势?

1.由于SVM优秀的泛化能力,以及其本身优化目标是结构风险最小化而不是经验风险最小化,通过最大化间隔得到了数据分布的结构化描述,从而降低了对数据规模和分布的要求。2.但并不代表SVM不适用于大规模数据,数据当然是越多越好。但是非线性的SVM处理大数据会很慢,可以考虑分布式。参考链接:https://www.zhihu.com/question/19591450...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com