KL 散度简介
KL 散度(Kullback–Leibler divergence)又称相对熵,是表示一个概率分布相对于另一个概率分布的差异的统计量。
什么是熵?
设离散型概率空间X的概率分布为P,对于X=(x1,x2,x3,...,xn)和对应的P={pi=p(X=xi)}, 有 X 的熵:
H(X)=−i=1∑np(xi)lnp(xi)
且有若p(xi)=0,则p(xi)logp(xi)=0(吉布斯不等式?)
对于连续型概率空间,则有:
H(X)=−∫i=1np(xi)lnp(xi)dx
KL 散度的推导
将熵的概念进行推广,若有两个分布P、Q,概率分布分别为p(x)、q(x),规定 :P为真实分布,Q为预测分布,那么两随机变量的交叉熵为:
H(P,Q)=−∑p(x)lnq(x)
KL 散度可以用来衡量两个分布之间的差异,可以得到推导:
DKL(P∣∣Q)=H(P,Q)−H(P)
即:
DKL(P∣∣Q)=−∑p(x)lnq(x)p(x)
或:
DKL(P∣∣Q)=−∫p(x)lnq(x)p(x)dx
KL 散度的性质
- KL 散度不具有对称性 (注意,所有散度中只有 JS 散度是对称的),即:
DKL(P∣∣Q)=DKL(Q∣∣P)