chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

sklearn.preprocessing中的Imputer用法解析

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。fromsklearn.preprocessingimportImputerobj=Imputer(strategy='mean'obj.fit_transform([[1,2,&n...
继续阅读

数据科学中简单实用的数据清洗代码(python)

在我们拿到数据进行数据分析之前,我们都应该对数据进行数据清洗,以确保使用质量最好的数据进行建模。不管你承认与否,数据清理都不是一项简单的任务,而且大部分情况都很耗时和乏味,但这个过程太重要了,不容忽视。下面直入正题,介绍简单有用的数据清洗代码。1.删除多余的列defdrop_multiple_col(col_names_list,df:```&nbs...
继续阅读

(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集

(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集
参考链接:原文链接可能很难证明数据可视化的重要性。有些人认为图表只是“漂亮的图片”,而所有重要的信息都可以通过统计分析来判断。用于证明可视化数据实际上很重要的有效(并且经常使用)工具是Anscome的四重奏。Anscombe的Quartet由FJAnscombe于1973年开发,是一组四个数据集,每个数据集产生相同的汇总统计数据(平均值,标准差和相关性),这可能使人们相信数据集非常相似。但是,在对数据进行可视化(绘图)之后,很明显数据集明显不同。Anscom...
继续阅读

Data Leakage 详解

Data Leakage 详解
原文链接:kaggle什么是DataLeakage?数据泄漏是一个数据科学家必须理解的重要概念。如果你不知道如何防止数据泄漏发生,那么它将会频繁发生,而且它将会以最隐秘,最危险的方式摧毁你的模型。具体而言,数据泄漏会导值你的模型看起来很精确,但当你使用它是就会变得非常不精确。这篇教程会告诉你什么是数据泄漏以及如何避免数据泄露。主要有两种类型的数据泄漏:LeakyPredictors和LeakyValidationStrategies.LeakyPredictors当...
继续阅读

数据科学家需要知道的5个基本统计概念

数据科学家需要知道的5个基本统计概念
原文链接:网页地址统计特征统计特征可能是数据科学中最常用的统计概念。它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。在代码中理解和实现都非常容易!请查看下面的箱型图来获取对各个概念的说明。中间的线是数据的中值,中值相对平均数来说更常用,因为中值对异常值的鲁棒性更好。第一个四分位点即第25个百分位点,第三个四分位点即75%的位置,最大值和最小值分别位于数据的最顶端和最下端。箱形图完美地说明了我们可以用基本统计特征做什么:(1)当箱...
继续阅读

均值的欺骗性

对于偏态的分布,应使用中位数作为集中趋势的统计量。只有单峰和基本对称的分布情况下,使用平均数作为集中趋势描述的统计量才是合理的。...
继续阅读

数据科学写作的实用建议

原文链接:https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52写作是每个人都想提高的技能,但是我们通常发现写作很难入门。我们知道写作关于数据科学项目的内容能够提高我们的交流能力,开阔视野,让我们成为更好的数据科学家。但是我们通常会觉得我们的写作不够好或者我们没有相关的教育或背景。我过去一年也在努力解决这些问题,并且提出了一些克服这些障碍的建议以及关于数据科学写...
继续阅读

皮尔逊系数与斯皮尔曼系数(The Pearson Correlation and The Spearman Correlation )

皮尔逊系数与斯皮尔曼系数(The Pearson Correlation and The Spearman Correlation )
ThePearsonCorrelation:from-1to1measuringthelinearrelationshipbetweentwovariablesTheSpearmanCorrelation:from-1to1measuringthemonotonicrelationshipbetweentwovariablesTheSpearmancorrelationis1ifasonevariablei...
继续阅读

理解方差的统计学意义

方差用来衡量随机变量与数学期望之间的偏离程度。数据分布分散,数据在均值附近波动较大,分布曲线扁平,方差越大;数据分布在均值集中,分布曲线瘦高,方差越小。...
继续阅读

np.random的几种方法

numpy.randomDESCRIPTION========================RandomNumberGeneration======================================================...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com