箱线图简介

定义

箱线图(Boxplot)又称为箱形图、盒须图或盒式图,一种用于展示一组或多组数据分散情况的统计图。

用途

  • 展示数据的集中趋势:箱线图的中位数反映数据集中趋势。若中位数在箱体中心,数据分布对称;若不在中心,则数据偏斜。
  • 展示数据的分散程度:箱体的长度(即Q3与Q1的间距)展示了数据的分散程度,箱体长度越长,说明数据越分散。
  • 显示异常值:箱线图延伸出去的须表示正常范围内的最大值与最小值,超出正常范围的数据点则是异常值(用星号或圆点表示)。
  • 显示数据的对称性与偏态:若箱体与须线长度均匀,数据分布对称;若须线长短不一或箱体偏斜,则数据分布呈现偏态。

如何看箱线图

  1. 横坐标:样本组
  2. 纵坐标:对应业务的数据
  3. IQR(四分位距):是统计离散度的度量,IQR=Q3-Q1
  4. Max值(Q3+1.5IQR):正常范围内,数据的最大值
  5. Q3(第三四分位数):位于75%的数据点(有75%的数据小于该值)
  6. Q2(中位数):位于50%的数据点,即将数据分为两部分的中心值
  7. Q1(第一四分位数):位于25%的数据点(有25%的数据小于该值)
  8. Min值(Q1-1.5IQR):正常范围内,数据的最小值
  9. 异常值:超出正常范围的数据点(Max值~Min值之间理论上为正态分布的99.3%置信区间)

适合箱线图展示的数据

  • 箱线图适用于连续型变量,不适用于离散型变量(但只有一个连续型变量时,更适合使用直方图)。
  • 当数据中存在超大或超小异常值时,箱线图可能呈现扁平形态或只剩一线,此时不适合使用箱线图。
  • 数据中存在大量异常值时,箱线图形状可能很奇怪,不适合使用。
  • 箱线图最适合用于比较,结合定性数据,绘制分组箱线图。