1. 协方差矩阵定义
在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量的相似程度。
参考: 带你了解什么是Covariance Matrix协方差矩阵 - 知乎
2. 协方差矩阵计算过程
- 将输入数据A进行中心化处理得到A’。即通过减去每个维度的平均值来实现中心化。
- 注意:平均值的计算有两种方式,按行计算(如numpy)和按列计算(如matlab),两者结果是不一样的,但原理是一样的,本文采用按行计算平均值为例。
- 按列计算均值(每一行是一个observation(样本),那么每一列就是一个随机变量(特征))的一个实例:协方差矩阵计算方法_如何算瞬时协方差矩阵-CSDN博客
- 对于按行计算方式:协方差矩阵等于去中心化后的数据A’乘以A’的转置矩阵, 然后除以 (列数-1)。如果输入数据的维度为(N,M),则该乘积的形状为(N,M)和(M,N),得到一个形状为(N,N)的矩阵。即对于NxM的矩阵A, 去中心化后的矩阵为A’, 则协方差等于:
-
cov_(A_{N\times M}) = \frac{1}{M-1}A'a'^{T}
3. 示例
一个矩阵A的协方差矩阵计算
设2x4的矩阵A为:
\begin{bmatrix} 1 & 2 & 4 & 1\\ 2& 3& 2 & 5 \end{bmatrix}
按行计算均值,意味着每一列是一个observation(样本),那么每一行就是一个随机变量(特征),举例如对于随机变量X,Y, 有四组采样结果(1,2), (2,3), (4,2), (1,5), 写成矩阵相乘的形式为:
\begin{bmatrix} X & Y \end{bmatrix}\begin{bmatrix} 1 & 2 & 4 & 1\\ 2& 3& 2 & 5 \end{bmatrix}
则均值向量为
a = \begin{bmatrix} 2\\ 3 \end{bmatrix}
去中心化后的矩阵A’为:
A' = \begin{bmatrix} -1 & 0 & 2 & -1\\ -1 &0 & -1 & 2 \end{bmatrix}
则协方差矩阵cov(A)为:
cov(A)=\frac{1}{4-1} A'A'^T
cov(A)=\frac{1}{3}\begin{bmatrix} -1 & 0 & 2 & -1\\ -1 &0 & -1 & 2 \end{bmatrix} \begin{bmatrix} -1 & -1\\ 0 & 0\\ 2 & -1\\ -1& 2 \end{bmatrix} = \frac{1}{3} \begin{bmatrix} 6 & -3 \\ -3 & 6 \end{bmatrix}
所以,
cov(A) ==\begin{bmatrix} 2 & -1\\ -1 & 2 \end{bmatrix}
代码numpy验算
import numpy as np
A = np.array([[1, 2, 4, 1], [2, 3, 2, 5]])
print("======= cov(A) =======")
print(np.cov(A))
mean_A = np.mean(A,axis=1,keepdims=True)
print("======= mean_A =======")
print(mean_A)
A1 = A - mean_A
print("======= A - mean_A =======")
print(A1)
covA =np.matmul(A1, A1.T)/(A1.shape[1]-1)
print("======= covA =======")
print(covA)
输出结果:
两个矩阵A、B的协方差矩阵计算
设矩阵A (维度NxM), B (维度NxM),去中心化后的矩阵为A’, B’, 则两个矩阵的协方差矩阵cov(A,B)为:
cov(A,B) = \frac{1}{M-1}\begin{bmatrix} A'A'^T& A'B'^T \\ B'A'^T& B'B'^T \end{bmatrix}
设A,B (维度为2x4)值分别为:
A = \begin{bmatrix} 1 & 2 & 4 & 1\\ 2& 3& 2 & 5 \end{bmatrix}
则 按行求平均值, 得平均值向量为a = [2, 3]^T, [4, 5]^T, 去中心化后,得到:
A' = \begin{bmatrix} -1 & 0 & 2 & -1\\ -1 &0 & -1 & 2 \end{bmatrix} ,B' = \begin{bmatrix} 1 & -1 & 0 & 0\\ -3 & -3 & 3 & 3 \end{bmatrix}
则其协方差矩阵 cov(A,B)(维度为4x4)为
cov(A,B) = \frac{1}{3}\begin{bmatrix} A'A'^T& A'B'^T \\ B'A'^T& B'B'^T \end{bmatrix} = \begin{bmatrix} 2 & -1 & -\frac{1}{3} & 2\\ -1 & 2 & -\frac{1}{3} & 2\\ -\frac{1}{3} & -\frac{1}{3} &\frac{2}{3} & 0 \\ 2& 2& 0 & 12 \end{bmatrix}
性质: cov(B,A)=(cov(A,B))^T
代码numpy验算
A = np.array([[1, 2, 4, 1], [2, 3, 2, 5]])
B = np.array([[5, 3, 4, 4], [2, 2, 8, 8]])
B1 = B - np.mean(B,axis=1,keepdims=True)
A1 = A - np.mean(A,axis=1,keepdims=True)
C11 = np.cov(A)
C22 = np.cov(B)
C12 = np.matmul(A1, B1.T)/(B1.shape[1]-1)
C21 = np.matmul(B1, A1.T)/(A1.shape[1]-1)
C = np.vstack((np.hstack((C11,C12)),np.hstack((C21,C22))))
print("======= np.cov(A,B) =======")
print(np.cov(A,B))
print("======= C =======")
print(C)
结果:
参考:
协方差的计算方法_协方差计算-CSDN博客 (matlab计算)
https://wenku.csdn.net/answer/2408abac75f64f0186adff81be057f99
评论(0)
您还未登录,请登录后发表或查看评论