今天整理note的时候又仔细想了一下:
考虑central moment的定义:
$\mu_{k} = \integrate_{-\inf}^{+\inf} (x - \mu)^{k} f(x) dx$
当k=2 时,就是熟悉的var
当k=3 时,就是熟悉的skew
当k=4 时,就是熟悉的kurt
让我感兴趣的是 (x - \mu)^{k}
这个部分,因为它长得实在太像learning theory里的MSE了。
recall 为什么learning时习惯用squared error 而不是 cubed error: 除了可导方便optimize之外,更重要的是 square 很好地平衡了small error 和 large error。
考虑一个普通的正态分布 N(0, 1)。有68.26%的数据都会落在(-1, 1) 之间。所以对于这些数据而言,(x - \mu)^{k} → 0, as k->\inf; 对于那些落在 (-\inf, -1) or (1, +\inf) 之间的 “outliers" 来说,(x - \mu)^{k} → \inf as k->\inf。此时计算得到的k-th central moment 中,这些outliers dominate the resulting value
所以相应的「数学图像」用这个idea去理解的话就会更clear一点:
方差: 数据点到 \mu 的squared error 期望值
skew: 负数的skew代表 \mu 左侧的PDF 拥有更 extreme 的值,从而得到了更「负」的 (x - \mu)^3; 正数的skew代表 \mu 右侧的PDF 拥有更extreme 的值,从而得到了更「正」的 (x - \mu)^3
kur:其实以「图形有多尖」来形容kurtosis,我认为是不准确的。一个更直观的理解是:RV取到极端值的概率下降的速度。对于一个low-kurtosis 分布,可以理解为大量的值都在 \mu 周围取到,使得 (x - \mu)^4 → a small number; 对于一个high-kurtosis分布,RV在整个值域上的分布则会更「均匀」,kurtosis 越大 <=> 整个积分的值被extreme value dominate <=> f(x) 随着 x getting more extreme 而下降得越慢
至于更高次的central moment 应该也能用同样的思路去解释:奇数的高阶moment反映了整个distribution在 \mu 左右侧的分布下降速度(甚至是下降加速度)的对比,而偶数阶则反映了整个distribution在 \mu 两侧的分布下降速度(甚至是下降加速度)