数据科学

seaborn的heatmap笔记
python

seaborn的heatmap笔记

44 0

首先展示一下使用seaborn绘制混淆矩阵的代码:import matplotlib.pyplot as plt import seaborn as sns import&nb...

sklearn.preprocessing中的Imputer用法解析
机器学习

sklearn.preprocessing中的Imputer用法解析

200 0

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。from sklearn.prep...

数据科学中简单实用的数据清洗代码(python)
python

数据科学中简单实用的数据清洗代码(python)

193 0

在我们拿到数据进行数据分析之前,我们都应该对数据进行数据清洗,以确保使用质量最好的数据进行建模。不管你承认与否,数据清理都不是一项简单的任务,而且大部分情况都很耗时和乏味,但这个过程太重要了,不容忽视。下面直入正题,介绍简单有用的数据清洗代...

Data Leakage 详解
机器学习

Data Leakage 详解

341 0

原文链接:kaggle什么是Data Leakage?数据泄漏是一个数据科学家必须理解的重要概念。如果你不知道如何防止数据泄漏发生,那么它将会频繁发生,而且它将会以最隐秘,最危险的方式摧毁你的模型。具体而言,数据泄漏会导值你的模型看起来很精...

数据科学家需要知道的5个基本统计概念
机器学习

数据科学家需要知道的5个基本统计概念

96 0

原文链接:网页地址统计特征统计特征可能是数据科学中最常用的统计概念。 它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。 在代码中理解和实现都非常容易! 请查看下面的箱型图来获取对各个概念的说明。中间...

均值的欺骗性
每日一条

均值的欺骗性

117 0

对于偏态的分布,应使用中位数作为集中趋势的统计量。只有单峰和基本对称的分布情况下,使用平均数作为集中趋势描述的统计量才是合理的。...

数据科学写作的实用建议
每日一条

数据科学写作的实用建议

103 0

原文链接:https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52写作是每个人都想提高的技能,但是我们通常发现写作很难入门。我...

理解方差的统计学意义
每日一条

理解方差的统计学意义

170 0

方差用来衡量随机变量与数学期望之间的偏离程度。数据分布分散,数据在均值附近波动较大,分布曲线扁平,方差越大;数据分布在均值集中,分布曲线瘦高,方差越小。...