chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

机器学习完整解决流程演练 part2

机器学习完整解决流程演练 part2
机器学习是一个强大的框架,从外部可能看起来复杂和令人生畏。然而,一旦我们将问题分解为其组件步骤,我们就会发现机器学习实际上只是一系列可理解的过程,每个过程都很简单。在本文中,我们将继续介绍哥斯达黎加预测贫困的方法,进行模型优化,解释模型,并尝试一些实验技术。ModelOptimization模型优化意味着在交叉验证中选择能产生最优模型的超参数。由于最佳超参数因数据而异,因此我们必须优化-也称为调整(tuning)-我们数据的模型。我喜欢将调优视为寻找机器学习模型的最...
继续阅读

Micro average和Macro average在多分类问题中的区别

原文链接:网页链接Macro-averages和Micro-averages(对于任何评价指标)计算方式有所不同,所以对它们的解释也不同。Macro-average会分别计算每个类别的metric,然后求它们的平均值(它认为每个类别是等同的)。而Micro-average将汇总所有类别的贡献以计算平均指标。所以如果你处理的多分类问题是类偏斜的,应该使用Micro-average。为了更加清晰地...
继续阅读

机器学习完整解决流程演练 part1

机器学习完整解决流程演练 part1
原文链接:网页链接作者:WilliamKoehrsen在这个系列中,我们要完成一个完整的机器学习项目,关于“DataScienceforGood”问题,这个问题目标是预测哥斯达黎加的家庭贫困情况。这是一个kaggle竞赛,完整代码见作者的github和JupyternotebookonKaggle。ProblemandApproach这个竞赛的目标是使用个人和家庭社会经济指标来预测家庭贫困。美洲开发银行(IDB)开发了这一问题,并提供了数据,目的是改进确定...
继续阅读

可视化随机森林中的决策树

可视化随机森林中的决策树
环境:win10python3.6.1使用工具:Graphviz下载地址下载后将bin目录添加到环境变量中数据集:sklearn中自带的iris数据集参考:HowtoVisualizeaDecisionTreefromaRandomForestinPythonusingScikit-Learn结果:第一步:训练模型fromsklearn.datasetsimportloa...
继续阅读

(转)对特征选择的理解

特征选择相关文献:AnIntroductiontoVariableandFeatureSelection,Guyon,2003.FeatureSelectionAlgorithms:ASurveyandExperimentalEvaluation,Molina,2002.米歇尔的《机器学习》一书.另外这个问题其实可以分为特征提取和特征选择两大类,前者包括了诸如PCA,LDA,SVM等及其变种;后者又主要分为Filter和Wrapper。对于Fi...
继续阅读

网飞数据科学家教你如何成为一个数据科学家

数据科学家是一个众说纷纭的术语。对一些人来说,它意味这数据分析;对另一些人来说,它是机器学习的代名词,还有一些人认为它就是解决一些数据工程项目。作为数据科学家要承担宽泛的责任,而且公司之间甚至公司的团队之间所承担的责任都有所不同,这使得数据科学家的身份定义很模糊。你必须与公司X的数据科学家进行具体的交谈才能了解这个公司是如何看待数据科学的。网飞组织的这个关注数据科学的第三方WiBD研讨会对我们来说,是一个极好的机会,让我们能够了解网飞的故事。信息不对称是一个不幸的事实,阻碍了...
继续阅读

数据特征(属性)类型

特征类型描述例子操作分类的(定性的)标称(nominal仅区分对象邮政编码,ID,性别,颜色众数,熵,列联相关、卡方检验序数(ordinal确定对象的序(<,>)(好,良,差)中值、百分位、秩相关、游程检验、符号检验数值的(定量的)区间(internal值的差有意义(+,-)日期,摄氏度均值、标准差、皮尔逊相关、t和F检验比率(ratio差和比率都有意义(-,*,/)绝对温度,长度,年龄,质量,计数几何平均、调和平均、百分比变差...
继续阅读

机器学习/深度学习相关社区资源

arXivsanitypreserverMilesBrundage'sTwitterRedditr/MachineLearningImportAI社区新闻简报https://jack-clark.net/AI大会:机器学习三大顶会:NIPS,ICML,ICLR及AAAI,IJCAI,UAI计算机视觉:CVPR,ECCV,ICCV自然语言处理:ACL,EMNLP,NAACL还有KDD,AISTATS,COLT....
继续阅读

为什么说SVM在处理小样本问题上有优势?

1.由于SVM优秀的泛化能力,以及其本身优化目标是结构风险最小化而不是经验风险最小化,通过最大化间隔得到了数据分布的结构化描述,从而降低了对数据规模和分布的要求。2.但并不代表SVM不适用于大规模数据,数据当然是越多越好。但是非线性的SVM处理大数据会很慢,可以考虑分布式。参考链接:https://www.zhihu.com/question/19591450...
继续阅读

支持向量机基础

支持向量机分为硬间隔分类器(训练集线性可分)、软间隔分类器(训练机近似线性可分,即存在outlier)、非线性分类器(使用核技巧进行求解)输入空间和特征空间是两个不同的空间,输入空间为欧氏空间或离散集合,特征空间为希尔伯特空间。支持向量机都是把输入空间中的输入映射到特征空间。学习目标是为了找到一个分类超平面wx+b=0,w是法向量,b...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com