赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

数据特征(属性)类型

特征类型描述例子操作分类的(定性的)标称(nominal仅区分对象邮政编码,ID,性别,颜色众数,熵,列联相关、卡方检验序数(ordinal确定对象的序(<,>)(好,良,差)中值、百分位、秩相关、游程检验、符号检验数值的(定量的)区间(internal值的差有意义(+,-)日期,摄氏度均值、标准差、皮尔逊相关、t和F检验比率(ratio差和比率都有意义(-,*,/)绝对温度,长度,年龄,质量,计数几何平均、调和平均、百分比变差...
继续阅读

机器学习/深度学习相关社区资源

arXivsanitypreserverMilesBrundage'sTwitterRedditr/MachineLearningImportAI社区新闻简报https://jack-clark.net/AI大会:机器学习三大顶会:NIPS,ICML,ICLR及AAAI,IJCAI,UAI计算机视觉:CVPR,ECCV,ICCV自然语言处理:ACL,EMNLP,NAACL还有KDD,AISTATS,COLT....
继续阅读

为什么说SVM在处理小样本问题上有优势?

1.由于SVM优秀的泛化能力,以及其本身优化目标是结构风险最小化而不是经验风险最小化,通过最大化间隔得到了数据分布的结构化描述,从而降低了对数据规模和分布的要求。2.但并不代表SVM不适用于大规模数据,数据当然是越多越好。但是非线性的SVM处理大数据会很慢,可以考虑分布式。参考链接:https://www.zhihu.com/question/19591450...
继续阅读

支持向量机基础

支持向量机分为硬间隔分类器(训练集线性可分)、软间隔分类器(训练机近似线性可分,即存在outlier)、非线性分类器(使用核技巧进行求解)输入空间和特征空间是两个不同的空间,输入空间为欧氏空间或离散集合,特征空间为希尔伯特空间。支持向量机都是把输入空间中的输入映射到特征空间。学习目标是为了找到一个分类超平面wx+b=0,w是法向量,b...
继续阅读

随机森林衡量变量重要性的陷阱

随机森林中变量的重要性常见的计算方法有两种,一种是meandecreaseimpurity,即平均不纯度的减少,现在sklearn中用的就是这种方法;一种是meandecreaseaccuracy,即平均准确率的减少,常用袋外误差率去衡量。假设我们有两个变量,分别是A和B,A和B之间有较强的相关性,如果A对模型贡献度较大,由于B很像A,所以B也应该对模型贡献较大,但...
继续阅读

AlphaGo发展历程

AlphaGo发展历程
...
继续阅读

运筹学与机器学习的区别是什么?

1.先验知识层面,运筹学的先验知识更多,目标函数有各种约束条件;2.算法层面,两者都是在收敛能力和随机性trade-off;3.复杂度层面,机器学习的复杂度体现在庞大的数据,运筹学体现在目标的复杂,约束众多。4.模型方面,现实问题可分为离散优化和连续优化,运筹学两者都包含,以离散优化居多(组合优化);机器学习侧重连续优化,期望拟合一个分布。...
继续阅读

机器学习任务的一般步骤

数据采集和标记->特征选择->数据清洗->模型选择->模型训练->模型测试->模型保存...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com