赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集

参考链接:原文链接

可能很难证明数据可视化的重要性。 有些人认为图表只是“漂亮的图片”,而所有重要的信息都可以通过统计分析来判断。 用于证明可视化数据实际上很重要的有效(并且经常使用)工具是Anscome的四重奏 Anscombe的Quartet由FJ Anscombe于1973年开发,是一组四个数据集,每个数据集产生相同的汇总统计数据(平均值,标准差和相关性),这可能使人们相信数据集非常相似。 但是,在对数据进行可视化(绘图)之后,很明显数据集明显不同。 Anscombe的四重奏的有效性并不是因为只有四个不同的数据集产生相同的统计特性,而是四个明显不同视觉上不同的数据集产生相同的统计特性。 相比之下,图1右侧的“非结构化四方”也与Anscombe的四重奏具有相同的统计特性,但是对于各个数据集没有任何明显的基础结构,这个四重奏在证明数据可视化的重要性方面几乎没有那么有效。(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集


尽管非常流行且有效地说明了数据可视化的重要性,但它们已经存在了近45年,并且不知道 Anscombe如何提出他的数据集。 因此,我们开发了一种技术来创建这些类型的数据集 - 这些数据集在一系列统计属性上是相同的,但产生不同的图形。

最近, Alberto Cairo创建了Datasaurus数据集,该数据集敦促人们“永远不要仅仅信任摘要统计数据;始终可视化您的数据”,因为虽然数据显示正常的看似统计数据,但绘制数据可以显示恐龙图片。 受Anscombe四重奏和Datasaurus的启发,我们推出了The Datasaurus Dozen下载.csv )。



(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集

(翻译)统计等效:通过模拟退火生成具有不同外观和相同统计数据的数据集

这13个数据集(Datasaurus,再加上12个其他数据集)每个都有相同的汇总统计数据(x / y均值,x / y标准差和Pearson相关性)到两个小数位,但外观上却截然不同。 这项工作描述了我们开发的用于创建此数据集的技术,以及其他类似的数据集。


发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com