chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

Git Lfs的使用

原文链接:zzz.buzzGitLFS操作指南>下载>Windows/Cygwin>Mac/BSD/Linux>ArchLinux>安装>Windows/Cygwin>Mac/BSD/Linux>ArchLinux>配置>常用GitLFS命令>GitLFS进阶使用>只获取仓库本身,而不获取任何LFS对象>获取当前commit下包含的LFS对象的当...
继续阅读

python中的sorted函数

sorted函数的形式如下:sorted(iterable,/,*,key=None,reverse=False关键参数是keykey参数的值是一个函数,这个函数只有一个参数且返回一个值进行比较,通过自定义这个函数来自定义排序方式举个例子:student_tuples=[('john','A',&nb...
继续阅读

机器学习完整解决流程演练 part2

机器学习完整解决流程演练 part2
机器学习是一个强大的框架,从外部可能看起来复杂和令人生畏。然而,一旦我们将问题分解为其组件步骤,我们就会发现机器学习实际上只是一系列可理解的过程,每个过程都很简单。在本文中,我们将继续介绍哥斯达黎加预测贫困的方法,进行模型优化,解释模型,并尝试一些实验技术。ModelOptimization模型优化意味着在交叉验证中选择能产生最优模型的超参数。由于最佳超参数因数据而异,因此我们必须优化-也称为调整(tuning)-我们数据的模型。我喜欢将调优视为寻找机器学习模型的最...
继续阅读

数据科学家的23段Pandas代码

基础数据集操作(1)读入csv数据集pd.DataFrame.from_csv('csv_file'或者pd.read_csv('csv_file'(2)读入excel数据集pd.read_excel('excel_file'(3)将DataFrame保存为csv文件df.to_csv('data.csv',sep=',',index=Fals...
继续阅读

pip使用的一些技巧

1.当pipinstall某个包遇到如下问题时:Cannotuninstall'cloudpickle'.Itisadistutilsinstalledprojectandthuswecannotaccuratelydeterminewhichfilesbelongtoitwhichwouldleadtoonlyapartialuninstall.使用pipinstall--ignore-insta...
继续阅读

Micro average和Macro average在多分类问题中的区别

原文链接:网页链接Macro-averages和Micro-averages(对于任何评价指标)计算方式有所不同,所以对它们的解释也不同。Macro-average会分别计算每个类别的metric,然后求它们的平均值(它认为每个类别是等同的)。而Micro-average将汇总所有类别的贡献以计算平均指标。所以如果你处理的多分类问题是类偏斜的,应该使用Micro-average。为了更加清晰地...
继续阅读

机器学习完整解决流程演练 part1

机器学习完整解决流程演练 part1
原文链接:网页链接作者:WilliamKoehrsen在这个系列中,我们要完成一个完整的机器学习项目,关于“DataScienceforGood”问题,这个问题目标是预测哥斯达黎加的家庭贫困情况。这是一个kaggle竞赛,完整代码见作者的github和JupyternotebookonKaggle。ProblemandApproach这个竞赛的目标是使用个人和家庭社会经济指标来预测家庭贫困。美洲开发银行(IDB)开发了这一问题,并提供了数据,目的是改进确定...
继续阅读

可视化随机森林中的决策树

可视化随机森林中的决策树
环境:win10python3.6.1使用工具:Graphviz下载地址下载后将bin目录添加到环境变量中数据集:sklearn中自带的iris数据集参考:HowtoVisualizeaDecisionTreefromaRandomForestinPythonusingScikit-Learn结果:第一步:训练模型fromsklearn.datasetsimportloa...
继续阅读

(转)对特征选择的理解

特征选择相关文献:AnIntroductiontoVariableandFeatureSelection,Guyon,2003.FeatureSelectionAlgorithms:ASurveyandExperimentalEvaluation,Molina,2002.米歇尔的《机器学习》一书.另外这个问题其实可以分为特征提取和特征选择两大类,前者包括了诸如PCA,LDA,SVM等及其变种;后者又主要分为Filter和Wrapper。对于Fi...
继续阅读

网飞数据科学家教你如何成为一个数据科学家

数据科学家是一个众说纷纭的术语。对一些人来说,它意味这数据分析;对另一些人来说,它是机器学习的代名词,还有一些人认为它就是解决一些数据工程项目。作为数据科学家要承担宽泛的责任,而且公司之间甚至公司的团队之间所承担的责任都有所不同,这使得数据科学家的身份定义很模糊。你必须与公司X的数据科学家进行具体的交谈才能了解这个公司是如何看待数据科学的。网飞组织的这个关注数据科学的第三方WiBD研讨会对我们来说,是一个极好的机会,让我们能够了解网飞的故事。信息不对称是一个不幸的事实,阻碍了...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com