【协方差的计算公式】在统计学中,协方差是用来衡量两个变量之间线性关系方向和程度的指标。通过协方差的大小,可以判断两个变量是同向变化还是反向变化。本文将对协方差的计算公式进行总结,并通过表格形式清晰展示其计算步骤。
一、协方差的基本概念
协方差(Covariance)是描述两个随机变量之间相关性的数值指标。其值为正时,表示两个变量呈正相关;为负时,表示呈负相关;为零时,表示两者无线性相关关系。
二、协方差的计算公式
设有两个变量 $X$ 和 $Y$,它们的样本数据分别为:
$$
X = \{x_1, x_2, ..., x_n\}, \quad Y = \{y_1, y_2, ..., y_n\}
$$
1. 样本协方差公式(无偏估计)
$$
\text{Cov}(X, Y) = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$
其中:
- $n$ 是样本数量;
- $\bar{x}$ 是 $X$ 的样本均值;
- $\bar{y}$ 是 $Y$ 的样本均值。
2. 总体协方差公式(有偏估计)
$$
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)
$$
其中:
- $\mu_x$ 是 $X$ 的总体均值;
- $\mu_y$ 是 $Y$ 的总体均值。
三、协方差计算步骤(以样本协方差为例)
| 步骤 | 操作 | 公式 |
| 1 | 计算 $X$ 的均值 $\bar{x}$ | $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$ |
| 2 | 计算 $Y$ 的均值 $\bar{y}$ | $\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i$ |
| 3 | 对每个样本点计算 $(x_i - \bar{x})(y_i - \bar{y})$ | —— |
| 4 | 将所有 $(x_i - \bar{x})(y_i - \bar{y})$ 相加 | $\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$ |
| 5 | 除以 $n - 1$ 得到样本协方差 | $\text{Cov}(X, Y) = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$ |
四、协方差与相关系数的关系
协方差的值受变量单位影响较大,因此常将其标准化为相关系数(如皮尔逊相关系数),以消除单位差异的影响。
$$
r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$
其中:
- $\sigma_X$ 和 $\sigma_Y$ 分别是 $X$ 和 $Y$ 的标准差。
五、总结
| 指标 | 公式 | 说明 |
| 协方差(样本) | $\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$ | 衡量两变量间的线性关系 |
| 协方差(总体) | $\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)$ | 描述总体中两变量的关系 |
| 相关系数 | $\frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$ | 标准化后的协方差,范围在 [-1, 1] |
通过以上内容可以看出,协方差是分析变量间关系的重要工具,理解其计算方式有助于更准确地解读数据之间的关联性。


