数据科学

pandas使用chunksize读取大文件
python

pandas使用chunksize读取大文件

230 0

chunksize是指在单位时间内要读入数据帧df的行数,以便适应本地内存。否则一次性读取大的数据文件的话,内存不够的机器会出现Mermory error。df_chunk = pd.read_csv(r'../...

seaborn的heatmap笔记
python

seaborn的heatmap笔记

262 0

首先展示一下使用seaborn绘制混淆矩阵的代码:import matplotlib.pyplot as plt import seaborn as sns import&nb...

sklearn.preprocessing中的Imputer用法解析
机器学习

sklearn.preprocessing中的Imputer用法解析

540 0

Imputer使用数据的统计信息(均值、中位数等)来填充缺失值。为了避免交叉验证时的数据泄漏,它使用fit计算训练数据的统计值,储存统计值,然后使用transform将统计值应用于测试数据。from sklearn.prep...

数据科学中简单实用的数据清洗代码(python)
python

数据科学中简单实用的数据清洗代码(python)

378 0

在我们拿到数据进行数据分析之前,我们都应该对数据进行数据清洗,以确保使用质量最好的数据进行建模。不管你承认与否,数据清理都不是一项简单的任务,而且大部分情况都很耗时和乏味,但这个过程太重要了,不容忽视。下面直入正题,介绍简单有用的数据清洗代...

Data Leakage 详解
机器学习

Data Leakage 详解

745 0

原文链接:kaggle什么是Data Leakage?数据泄漏是一个数据科学家必须理解的重要概念。如果你不知道如何防止数据泄漏发生,那么它将会频繁发生,而且它将会以最隐秘,最危险的方式摧毁你的模型。具体而言,数据泄漏会导值你的模型看起来很精...

数据科学家需要知道的5个基本统计概念
机器学习

数据科学家需要知道的5个基本统计概念

176 0

原文链接:网页地址统计特征统计特征可能是数据科学中最常用的统计概念。 它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。 在代码中理解和实现都非常容易! 请查看下面的箱型图来获取对各个概念的说明。中间...

均值的欺骗性
每日一条

均值的欺骗性

196 0

对于偏态的分布,应使用中位数作为集中趋势的统计量。只有单峰和基本对称的分布情况下,使用平均数作为集中趋势描述的统计量才是合理的。...

数据科学写作的实用建议
每日一条

数据科学写作的实用建议

185 0

原文链接:https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52写作是每个人都想提高的技能,但是我们通常发现写作很难入门。我...

Live Sex Cams Free