包教包会带你读懂箱型图小提琴图

在变量分布图一文中,我们已经完整简单介绍了用于展示变量分布的相关图形。本期我们将针对箱型图和小提琴图做详细介绍,包括图形解读以及绘图示例

箱型图boxplot

概述

箱型图适用于总结数值变量分布情况。箱型图中将方框分成两部分的线代表数据的中位数。箱子的上下两端分别显示上四分位数和下四分位数,极限线显示最高和最低值,离群值则通常用点画出但是,箱型图只能展现数据的上下四分位数,中位线等突出统计位置,无法完整展示数据的分布特

常见问题处理方法:

箱型图隐藏了每组的样本量。可以通过注释或者将箱型图的的宽度和样本量进行映射来体现样本量

箱型图隐藏了数据的基础分布。例如,服从正态分布的数据样本在箱型图中看起来可能与双峰分布分布完全相同。

数据量较少时,可以使用抖动(Jittering)处理,即适当的为数据点向右或向左调整分组轴上的位置;数据量较大时,可以使用小提琴图

可以考虑通过中位数排序小提琴图,使得图表更加美观

解读:下图对箱型图的图形各部分作出了详细标注和解释

将箱型图分成两部分的线代表数据的中位数(Median/Q2)。如果中位数是10,就表明10以下和10以上的数据点的数量相同

盒箱型图的两端表示上四分位数(Q3)和下四分位数(Q1),如果第四分位数(Q3)是15,表明75%的观测值低于15

四分位数Q1和Q3之间的差值称为四分位数间距(IQR)即IQR=Q3-Q1

极限边缘线(因多标为虚线也称虚线图中Maximum和Minimux)显示Q3+1.5*IQR到Q1-1.5*IQR(不是离群值的最高和最低值)

极限线以外的点(或其他标记)表示离群值

具体的:

箱型图的大小取决于数据的四分位距(IQR)。箱型图中50%的数据集中于箱体,箱体大小(长度)表明了数据的离散程度。

箱体大(长)表示数据分布离散,数据波动较大

箱体小(短)表示数据集中

当中位数接近底部时,说明大部分的数据值比较小

当中位数接近顶部时,说明大部分的数据值比较大

中位数所处的高低位置能反映数据的偏斜程度

对称分布:中位线在箱子中间

右偏分布:中位数更靠近下四分位数

左偏分布:中位数更靠近上四分位数

如果上下虚线比较长,说明上下四分位数之外的数据变化比较大,整体数据的方差和标准偏差也比较大

一般而言,若数据值Q3+1.5*IQR(上限值)或数据值Q1-1.5*IQR(下限值),均视为异常值。数据值Q3+3*IQR或数据值Q1-3*IQR,均视为极值

这表明,如果数据的四分位数保持不变,箱形图就不会改变,这也是箱型图的缺点

小提琴图violinplot

概述

小提琴图是箱型图的变体,但比箱型图更能展示数据的分布,并且更适合较大的数据量

小提琴图可以将一个或几个组的数字变量的分布可视化。每个"小提琴"代表一个组或一个变量。形状代表变量的密度估计:在特定范围内的数据点越多,该范围的小提琴就越大。

甚至,我们可以在小提琴图中加入箱型图,同时兼备箱型图和小提琴图的优点

常见问题处理方法

如果类别较少,小提琴图可能并不美观,可以考虑山脊线图

如果不同组别间的样本数量相差较大,可以考虑显式注明样本数量

解读:我们对照箱型图,对小提琴图进行介绍图中标注信息,我们可以对照箱型图来看,关键信息基本相同。但小提琴图的“胖瘦”反映了数据的分布情况

小提琴图中黑色矩形-箱型图中的箱体,对应位置也为上下四分位线。在实际绘图中,我们还可以为小提琴图增加贯穿图形整体的上下四分位线和中位数线

图中白点-箱型图中位数线

贯穿黑色矩形的实线-箱型图极限边缘线(虚线)

外围形状:反映数据的分布情况

此处借助

jinzhao在知乎问答中的示例图为大家展示箱型图和小提琴图的对比作为结尾

标准正态分布

对数正态分布

高斯混合-双峰型

参考:




转载请注明:http://www.aierlanlan.com/rzfs/1453.html