侧信道攻击-皮尔逊相关系数
Contents
写在前边
这个系列是为了开题、汇报、论文中可能要用到的预备知识开设的,亦可用做入门练习。
皮尔逊相关系数
协方差:用来描述两个随机变量之间的相关程度的指标,如果是正值,则说明二者正相关,负值则说明负相关,0则表示二者没有关系,公式如下所示: $$ \begin{equation} COV(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) \end{equation} $$ 尽管协方差可以表示两个随机变量的相关程度,但其面临尺度不统一的问题,即由于没有执行标准化操作,其值取决于变量的单位,无法从直观上去判断具体的相关性。例如,在二维空间中,假设数据的分布较为离散,具体分布如表1所示。
表1 离散数据分布表
X1 | X2 | Y1 | Y2 |
---|---|---|---|
1.2 | 12 | 3.3 | 3.3 |
2.5 | 25 | 4.7 | 4.7 |
3.0 | 30 | 5.5 | 5.5 |
4.9 | 49 | 6.0 | 6.0 |
通过观察表中的数据可知,X1与X2实质上是单位不同(参考知乎中沅芷澧兰评论),此时我们计算对应(X1, Y1)的协方差为1.6866
, (X2, Y2)组的协方差则是16.86666667
,这里就可以看出计算单位不同导致相关程度看起来(X2,Y2)要比前一组的更高。为了避免这种情况的出现,尤其是在侧信道攻击中不同加密设备、不同加密算法上采样得到的时间样本点的大小可能存在很大的差异,因此引入皮尔逊相关系数。
皮尔逊相关系数通过协方差除以标准差的方式来进行标准化操作,将取值范围缩小到了[-1, 1]之间,以解决之前的问题。同样的,皮尔逊相关系数用于衡量两个随机变量 X与Y之间的线性相关性,+1表示完全线性相关,0表示非线性相关,-1表示完全线性不相关,公式如下:
对于上述(X1, Y1)和(X2,Y2),计算得到的皮尔逊相关系数均为0.9328
,通过归一化进而对齐了尺度,使得不同单位下在随机变量上计算所得的相关性可以相互比较。