对于随机变量的「moment」的深层次理解

今天整理note的时候又仔细想了一下:

考虑central moment的定义:

$\mu_{k} = \integrate_{-\inf}^{+\inf} (x - \mu)^{k} f(x) dx$

当k=2 时,就是熟悉的var
当k=3 时,就是熟悉的skew
当k=4 时,就是熟悉的kurt

让我感兴趣的是 (x - \mu)^{k} 这个部分,因为它长得实在太像learning theory里的MSE了。

recall 为什么learning时习惯用squared error 而不是 cubed error: 除了可导方便optimize之外,更重要的是 square 很好地平衡了small error 和 large error。

考虑一个普通的正态分布 N(0, 1)。有68.26%的数据都会落在(-1, 1) 之间。所以对于这些数据而言,(x - \mu)^{k} → 0, as k->\inf; 对于那些落在 (-\inf, -1) or (1, +\inf) 之间的 “outliers" 来说,(x - \mu)^{k} → \inf as k->\inf。此时计算得到的k-th central moment 中,这些outliers dominate the resulting value

所以相应的「数学图像」用这个idea去理解的话就会更clear一点:
方差: 数据点到 \mu 的squared error 期望值

skew: 负数的skew代表 \mu 左侧的PDF 拥有更 extreme 的值,从而得到了更「负」的 (x - \mu)^3; 正数的skew代表 \mu 右侧的PDF 拥有更extreme 的值,从而得到了更「正」的 (x - \mu)^3

kur:其实以「图形有多尖」来形容kurtosis,我认为是不准确的。一个更直观的理解是:RV取到极端值的概率下降的速度。对于一个low-kurtosis 分布,可以理解为大量的值都在 \mu 周围取到,使得 (x - \mu)^4 → a small number; 对于一个high-kurtosis分布,RV在整个值域上的分布则会更「均匀」,kurtosis 越大 <=> 整个积分的值被extreme value dominate <=> f(x) 随着 x getting more extreme 而下降得越慢

至于更高次的central moment 应该也能用同样的思路去解释:奇数的高阶moment反映了整个distribution在 \mu 左右侧的分布下降速度(甚至是下降加速度)的对比,而偶数阶则反映了整个distribution在 \mu 两侧的分布下降速度(甚至是下降加速度)

(以下来自野生爱好者,不构成医疗建议)

直观(?)图像的话有这么个经典邪路:用generating function那套办法并同时把任何分布都在Gaussian附近展开,那某种程度上各阶moment就是各阶费曼图,众所周知后者就是个渐进展开没啥特别说得通的超出感觉层面的意义所以我猜前者也是这样,大概
(其实也不是特别离奇的邪路,毕竟CLT在这种解释下很自然,虽然不知道为啥没怎么看见过其他同样有意思的结果

我是觉得conditional expectation刚好solve MSE这个性质更有说服力一点(指l2 loss有啥特殊的地方)。

直觉上我对看一个随机变量是不是比1大这个事情很难接受,毕竟随机变量可以差一个相当任意的reparametrization,在这个意义上我对moments本身是不是有特别多的含义有点怀疑,会觉得类似于Fisher information那套坐标无关的表述更顺眼一些。

感觉你这思路像这个 Kurtosis as Peakedness, 1905 – 2014. R.I.P. - PMC (我没细看)
如果要我顺着这个思路想想的话,有充足时间前提下我会先去翻翻调和分析,感觉一定能翻出来不少有用的直觉(不过我懒得学这玩意了,最近实在没时间,等解决工作问题了+毕业了之后倒是挺愿意多想想的,感觉有不少好玩的东西。。。

大家都可导,这个是因为cubed error没有minima

yeah这应该是正确理由

我的意思是,对于更高偶次方的距离,small error的高次方->0,几乎就是ignore了这些small errors

刚发现这篇paper有近700 citation… 只恨自己没早生个十年,不然我是有700引作品的人了 T_T

啥……这玩意值700引用?没事,十年算个啥,A Mathematical Model for the Determination of Total Area Under Glucose Tolerance and Other Metabolic Curves | Diabetes Care | American Diabetes Association 这位朋友比古巴比伦人(https://www.science.org/doi/full/10.1126/science.aad8085 )晚生了两千多年照样能用同样的idea毛到500多引用 :kissing_heart: