学霸的星辰大海吧 关注:148贴子:821
  • 3回复贴,共1

为何信息几何中采用Fisher信息矩阵作为度量

只看楼主收藏回复

信息几何是用微分几何来描述概率分布空间的一门学问. 以正态分布为例,研究的是以其均值m和方差v为变量的空间.如果采取欧式度量,(m1,v1)和(m2,v2)的距离等于(m3,v3)和(m4,v4)间的距离,但是这与实际的情况不符(欧氏度量相等的两对点对应的两组分布之间的“差异”很明显不同),因此Amari提出应该用Fisher information矩阵作为概率分布空间中的度量.


IP属地:日本1楼2022-06-29 23:35回复


    IP属地:日本2楼2022-06-30 12:33
    回复
      此外值得注意的是,度量可以理解成一种"局域的”(local)距离,如果要衡量两个概率分布间真正的距离(global distance),则还需要引入一个distance函数,信息几何中,人们一般选取Kullback-Leibler divergence(KL差分). Fisher information度量和联络可以分别直接由KL差分的二阶导数和三阶导数得到. 为什么不选用其他的差分,如alpha差分呢?这是因为KL差分有一个重大的优点:只有选取KL差分为距离函数的时候,推导出来的仿射联络是平直的:存在一组仿射坐标卡使得仿射联络在其坐标点上处处为零!由这样的联络描述的流形称为对偶平直(dually flat)流形.优势在于此时的测地线方程退化为简单的线性方程,这样的流形可以视为欧氏空间的简单扩展,很多性质可以类比欧氏空间.


      IP属地:日本3楼2022-06-30 12:54
      回复

        此外还有一个有意思的引申结论:在概率分布的参数空间中用“最陡”梯度下降法搜寻极值点的时候,负梯度方向并非真正“最陡”的方向!要在前面乘上一个Fisher信息矩阵的逆,得到的才是真正的最陡方向.这当然也是由于参数空间中的度量选择的不是欧氏度量.


        IP属地:日本4楼2022-06-30 12:59
        回复