赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

数据科学家需要知道的5个基本统计概念

原文链接:网页地址

  1. 统计特征

    统计特征可能是数据科学中最常用的统计概念。 它通常是您在探索数据集时应用的第一种统计技术,包括偏差,方差,均值,中位数,百分位数等等。 在代码中理解和实现都非常容易! 请查看下面的箱型图来获取对各个概念的说明。

    数据科学家需要知道的5个基本统计概念

    中间的线是数据的中值,中值相对平均数来说更常用,因为中值对异常值的鲁棒性更好。第一个四分位点即第25个百分位点,第三个四分位点即75%的位置,最大值和最小值分别位于数据的最顶端和最下端。

    箱形图完美地说明了我们可以用基本统计特征做什么:

    (1)当箱形图很短时,它意味着您的大部分数据点都相似,因为在很小的范围内有许多值

    (2)当箱形图很高时,它意味着您的大部分数据点都非常不同,因为这些值分布在很宽的范围内

    (3)如果中值接近底部,那么我们知道大多数数据具有较低的值。 如果中值接近顶部,那么我们知道大多数数据具有更高的值。 基本上,如果中间线不在框的中间,则表明数据偏斜

    (4)箱须即上下两端的线,箱须很长吗? 这意味着您的数据具有较高的标准偏差方差,即数值分散且变化很大。 如果盒子的一侧有箱须,而另一侧没有箱须,那么您的数据可能只在一个方向上变化很大。

  2. 概率分布

    我们可以将概率定义为某个事件发生的几率。 在数据科学中,这通常在0到1的范围内量化,其中0表示我们确定这不会发生 ,1表示我们确定它将发生 然后,概率分布是表示实验中所有可能值的概率的函数。 请查看下面的图形以获取说明。

    数据科学家需要知道的5个基本统计概念

    三个分布从左到右分别是均匀分布,正态分布和泊松分布。

    (1)均匀分布是我们在这里展示的3种分布中最基本的。 它有一个值只出现在一定范围内,而超出该范围的任何东西只有0.这是一个“开或关”分布。 我们还可以将其视为具有2个类别的分类变量的指示:0或值。 您的分类变量可能具有除0以外的多个值,但我们仍然可以将其视为多个均匀分布的分段函数。

    (2)正态分布 ,通常称为高斯分布,由其均值和标准偏差具体定义。 平均值在空间上改变分布,标准偏差控制分布。 与其他分布(例如泊松)的导入区别在于标准偏差在所有方向上是相同的。 因此,利用高斯分布,我们知道数据集的平均值以及数据的扩展,即它是在很大范围内扩展还是高度集中在几个值附近.

    (3)泊松分布类似于法线但具有附加的偏斜因子。 对于偏斜的低值,泊松分布将在所有方向上具有相对均匀的扩展,就像正常一样。 但是当偏度值的幅度较大时,我们的数据在不同方向上的传播会有所不同; 在一个方向上它将非常分散,而在另一个方向上它将高度集中。

    我们可以使用均匀分布快速查看和解释我们的分类变量。 如果我们看到高斯分布,我们知道有许多算法默认情况下会特别适用于高斯,所以我们应该去使用那些算法。 对于泊松,我们将看到我们必须特别小心并选择一种对空间扩散变化具有鲁棒性的算法。

  3. 降维

    Dimensionality Reduction一词非常直观易懂。 我们有一个数据集,我们希望减少它拥有的维度。 在数据科学中,这是特征变量的数量。 请查看下面的图形以获取说明。数据科学家需要知道的5个基本统计概念

    立方体代表我们的数据集,它有3个维度,总共1000个点。 现在,今天的计算1000点很容易处理,但在更大的规模,我们会遇到问题。 然而,仅从二维视角(例如从立方体的一侧)查看我们的数据,我们可以看到从该角度划分所有颜色非常容易。 通过降维,我们将3D数据投影到2D平面上。 这有效地将我们需要计算的点数减少到100,大大节省了计算量!

    我们可以通过特征修剪来降低维数的另一种方法。 通过特征修剪,我们基本上想要删除任何我们看到的对我们的分析不重要的特征。 例如,在探索数据集之后,我们可能会发现,在10个特征中,其中7个与输出具有高度相关性,而其他3个具有非常低的相关性。 那么这3个低相关特征可能不值得计算,我们可能只能从我们的分析中删除它们而不会损害输出

    用于降维的最常见的统计技术是PCA,它基本上创建了特征的矢量表示,显示了它们对输出的重要性,即它们的相关性。 PCA可用于执行上面讨论的两种降维方式。 本教程中阅读更多相关内容。

  4. 过采样和欠采样

    Over and Under Sampling是用于分类问题的技术。 有时,我们的分类数据集可能会过于倾向于一边。 例如,我们在类1中有2000个示例,但在类2中只有200个。这将摒弃我们尝试用于建模数据和进行预测的许多机器学习技术! 我们的Over and Under Sampling可以解决这个问题。 请查看下面的图形以获取说明。

    数据科学家需要知道的5个基本统计概念

    在上图的左侧和右侧,我们的蓝色类比橙色类有更多的样本。 在这种情况下,我们有2个预处理选项,可以帮助我们的机器学习模型的培训。

    欠采样意味着我们将只选择多数类中的一些数据,像使用少数类的例子一样。 欠采样应该保持类的概率分布。 那很简单! 我们只需采取少量样本就可以平衡我们的数据集!

    过采样意味着我们将创建我们的少数类的副本 ,以便拥有与多数类相同数量的示例。 这些副本要保持少数类原先的分布。 我们仅仅在没有获得额外数据的情况下平衡了我们的数据集。

  5. 贝叶斯统计

    贝叶斯统计能解决概率统计不适用的问题。当人们听到“概率”一词时首先想到的就是概率统计。它设计应用数学来分析某些事件发生的概率,具体而言,我们计算的唯一数据是先验数据

    我们来看一个例子。 假设我给了你一个骰子,并问你有什么机会你滚动6.好吧大多数人只会说它是6中的一个。事实上,如果我们要进行频率分析,我们会看一些有人滚动的数据死10,000次并计算每个数字的频率; 它会大致达到1/6!

    但是,如果有人告诉你,给你的特定的灌铅骰子总是落在6上呢? 由于频率分析仅考虑了先前的数据 ,然而产生这种情况的证据即灌铅并没有被考虑在内。

    数据科学家需要知道的5个基本统计概念

    P(H)是基本的概率分析,即给予先验数据后,事件发生的概率。P(E|H)叫做似然估计,它本质上是在给予从概率分析中得到的信息后,我们的证据是正确的概率。假如你掷色子10000次,前1000次结果都是6,那么我们有足够的信心认为骰子灌铅了。P(E)就是证据为真的概率。假如我告诉你骰子灌铅了,你能相信我吗,还是认为我在欺骗你。

    如果我们的频率分析非常好,那么它就会有一定的权重来表示我们对6的猜测是正确的。同时考虑到骰子灌铅的事实,假如它是真实的或者它不基于先验概率。从贝叶斯公式可以看出,贝叶斯统计把所有因素都考虑在内了。当你觉得先前的数据不能很好地代表您未来的数据和结果,请使用贝叶斯。


发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com