标准差和方差（一文了解无处不在的标准差）

时间：2021-04-20 12:30:08　来源：百思特网　作者：best123

机器之心编译

参与：魔王、杜伟

本文将对标准差这一概念提供直观的视觉解释。

直观、形象、动态，一文了解无处不在的标准差

本文作者为纽约市立大学在读博士生 Fahd Alhazmi，专注于神经科学、人工智能和人类行为研究。

统计学中最核心的概念之一是：标准差及其与其他统计量（如方差和均值）之间的关系。入门课程中老师常告诉学生「记住公式就行」，但这并非解释概念的最佳方式。本文将对标准差这一概念提供直观的视觉解释。

假设你有一个成绩单，在本案例中这即是现实测量（real-world measurements）。我们想将这些测量中的信息「压缩」为一组量，以便后续对比不同班级的成绩或不同年份的成绩等。鉴于认知能力有限，我们不想挨个查看分数，来找出平均分更高的班级。这时就需要总结数字，描述统计学就派上用场了。

总结数字的方式有两种：量化其相似性或差异（difference）。

量化数字的相似性即「集中趋势量数」（measures of central tendency），包括平均数、中位数和众数；
量化数字的差异即「差异量数」（measures of variability），包括方差和标准差。

标准差揭示一组数字中彼此之间的差异，以及数字与平均值之间的差异。

举例而言，假设你收集了一些学生分数（出于简洁性考虑，我们假设这些分数是总体）。

直观、形象、动态，一文了解无处不在的标准差

我们首先在简单的散点图中绘制这些数字：

直观、形象、动态，一文了解无处不在的标准差

绘制完成后，计算差异的第一步是找出这些数字的中心，即平均值。

直观、形象、动态，一文了解无处不在的标准差

视觉上，我们可以绘制一条线来表示平均分数。

直观、形象、动态，一文了解无处不在的标准差

接下来我们要计算每个点和平均值之间的距离，并对得到的数值求平方。记住，我们的目标是计算数字之间的差异，以及数字与平均值之间的差异。我们可以用数学或视图的方式完成该操作：

直观、形象、动态，一文了解无处不在的标准差

从上图中我们可以看到，「求平方」只不过是画了一个方框而已。这里有两点需要注意：我们无法计算所有差异的总和。因为一些差异是正值，一些是负值百思特网，求和会使正负抵消得到 0。为此，我们对差异百思特网取平方（稍后我会解释为什么取平方而不是其他运算，如取绝对值）。

现在，我们来计算差异平方的总和（即平方和）：

直观、形象、动态，一文了解无处不在的标准差

通过计算平方和，我们高效计算出这些分数的总变异（即差异）。理解变异（variability）与差异（difference）之间的关系是理解多个统计估计和推断检验的关键。上图中平方和 67.5 表示，如果我们将所有方框堆在一个巨大的正方形中，则大正方形的面积等于 67.5 points^2，points 指分数的单位。任意测量集的总变异都是正方形的面积。

方差

现在我们得到了总变异（即大正方形的面积），但我们真正想要的是平均变异（mean variability）。要想求得平均变异，我们只需要用总面积除以方框的数量：

直观、形象、动态，一文了解无处不在的标准差

出于实用目的考虑，你或许想除以 N−1，而不是 N，这样你就可以尝试基于一个样本而不是总体来估计平均变异。但是，这里假设我们已经具备总体（total population）。重点在于，你想计算所有小方框的均方值。这就是「方差」，即平均变异，或者差异平方的平均值（mean squared difference）。

标准差

我们为什么不用方差来表示分数的差异呢？唯一的问题是，我们无法对比方差和原始分数，因为方差是「平方」值，即它是面积而非长度。其单位是 points^2，与原始分数的单位 points 不同。那么如何甩掉平方呢？开平方根啊！

直观、形象、动态，一文了解无处不在的标准差

最后，我们终于得到了标准差：变异的平方根，即 2.91points。

这就是标准差的核心理念。本文对标准差概念的基础直观解释可以帮助大家更容易地理解，为什么在处理 z 分数（z-score）、正态分布、标准误差和方差分析时要使用标准差的单位。

此外，如果你用标准差公式中的拟合线 Y 替代平均值，则你在处理的是基础回归项，如均方误差（不开根号的话）、均方根误差（开根号，但是和拟合线相关）。相关和回归公式均可使用不同量的平方和（或总变异区域）来写。分割平方和是理解机器学习中的泛化线性模型和偏差-方差权衡的关键概念。

简而言之：标准差无处不在。

绝对值的问题

你可能会疑惑，为什么对差异求平方而不是取绝对值呢。没有什么能够真正阻止你使用差异的平均绝对值。平均绝对值给所有差异提供的是相同的权重，而差异平方为距离平均值较远的数字提供更多权重。这或许是你想要的。但是，大部分数学理论利用差异平方（其原因不在本文讨论范围内，如可微分）。

不过，我会用一个容易理解的反例来回答这个问题。假设有两个均值相同的分数集合：x_1 和 x_2：

直观、形象、动态，一文了解无处不在的标准差

从这些数字中，你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低。我百思特网们来计算两个集合差异的平均绝对值（二者的平均值都为 6）：

直观、形象、动态，一文了解无处不在的标准差

哦，结果并不好！两个集合的变异值相同，尽管我们能够看到 x_1 的数字差异要比 x_2 低。现在，我们使用差异平方计算，得到：

直观、形象、动态，一文了解无处不在的标准差

在差异平方的作用下，我们得到了想要的结果：当数字越分散时，标准差越大。

本文地址：https://www.best73.com/news/95051.html

特别声明：以上内容来源于编辑整理发布，如有不妥之处，请与我方联系删除处理。

上一篇：一本大学（这13所排名靠前的普通一本大学）
下一篇：周朝历代皇帝列表（从周文王到周幽王，十二位帝王简述）

相关资讯 查看更多