符号约定

符号 说明
X,Y,X, Y, \cdots 随机事件集合/随机变量
x,y,x, y, \cdots 随机事件集合中的元素/随机变量的取值
p(x)p(x) 随机事件发生的概率
p(xy)p(x \vert y) 随机事件发生的条件概率
p(xy),p(x,y)p(x y), p(x, y) 随机事件发生的联合概率

概念说明

名称 说明
自信息量 随机事件集合 XX 中某一个事件 xx 的信息量,表示事件 xx 的不确定性
互信息量 随机事件集合 XX 中事件 xx 包含事件 yy 的信息量,表示事件 xx 和事件 yy 共有的不确定性
随机事件集合 XX 中所有事件自信息量的平均值,表示随机事件集合 XX 的平均不确定性
互信息 随机事件集合 XX 包含随机事件集合 YY 的熵,表示随机事件集合 XXYY 共有的平均不确实性

1. 随机事件

1.1 信息量与不确定度

事件发生的概率越大,它发生后提供的信息量就越小;事件发生的概率越小,一旦该事件发生,它发生后提供的信息量就越大。因此,事件 xx 的信息量 I(x)I(x) 应该是该事件概率的函数

I(x)=f[p(x)](1.1)\begin{align*} I(x) = f[p(x)] \tag{1.1} \end{align*}

函数 I(x)I(x) 应满足的四大性质

  1. f[p(x)]f[p(x)] 应该是 p(x)p(x) 的单调递减函数;
  2. p(x)=1p(x) = 1 时,f[p(x)]=0f[p(x)] = 0
  3. p(x)=0p(x) = 0 时,f[p(x)]=f[p(x)] = \infty
  4. 两个独立事件的联合信息量应该等于各自信息量之和。

1.2 自信息量

  • 定义:任何随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件 xx 发生的概率为 p(x)p(x),则其自信息定义为

    I(x)=log2p(x)(1.2)\begin{align*} I(x) = -\log_{2} p(x) \tag{1.2} \end{align*}

    自信息量衡量的是随机事件的不确定性。事件的不确定性越大,其自信息量也越大,反之亦然。

  • 性质:式 (1.2)(1.2) 中定义的自信息满足式 (1.1)(1.1)f[p(x)]f[p(x)] 应当满足的四大性质,即

    1. 函数 I(x)I(x)p(x)p(x) 的递减函数;

    2. p(x)=1p(x) = 1 时,I(x)=0I(x) = 0

    3. p(x)=0p(x) = 0 时,I(x)=I(x) = \infty

    4. 两个独立事件的联合信息量等于各自信息量之和

    I(x1x2)=log2p(x1x2)=log2p(x1)p(x2)=I(x1)+I(x2)\begin{array}{c} I(x_1x_2) = -\log_{2} p(x_1x_2) = -\log_{2} p(x_1)p(x_2) = I(x_1) + I(x_2) \end{array}

  • 单位及换算

    单位
    I(x)=log2p(x)I(x) = -\log_{2} p(x) bit (比特)
    I(x)=lnp(x)I(x) = -\ln p(x) nat (奈特)
    I(x)=lgp(x)I(x) = -\lg p(x) hart (哈特)

    11 nat = log2e\log_{2}e = 1.4431.443 bit
    11 hart = log210\log_{2}10 = 3.323.32 bit

1.3 联合自信息量

  • 定义:二维联合集 XYXY 上的元素 (xy)(x y)联合自信息量定义为

    I(xy)=log2p(xy)(1.3)\begin{align*} I(x y) = -\log_{2} p(x y) \tag{1.3} \end{align*}

    联合自信息量衡量的是多个事件同时出现的不确定性。

1.4 条件自信息量

  • 定义:事件 xx 在事件 yy 给定的条件下的条件自信息定义为

    I(xy)=log2p(xy)(1.4)\begin{align*} I(x|y) = -\log_{2} p(x|y) \tag{1.4} \end{align*}

    条件自信息量衡量的是已知事件 yy 之后仍然保留的关于 xx 的不确定性。

1.5 互信息量

  • 定义:随机事件 yy 的出现给出关于事件 xx 的信息量定义为二者的互信息量,定义为

    I(x;y)=log2p(xy)p(x)=log2p(xy)p(x)p(y)(1.5)\begin{align*} I(x; y) = \log_{2} \frac{p(x|y)}{p(x)} = \log_2 \frac{p(xy)}{p(x) p(y)} \tag{1.5} \end{align*}

    本身的不确定性,减去知道事件 yy 之后仍然保留的不确定性,即由 yy 所提供的关于 xx 的信息量或由 yy 所消除的关于 xx 的不确定性,称为事件 xxyy 的互信息量。

  • 性质

    1. I(x;y)=I(x)I(xy)I(x;y) = I(x) - I(x|y)

      证明I(x;y)=log2p(xy)p(x)=log21p(x)log21p(xy)=I(x)I(xy)I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{1 \over p(x)} - \log_{2}{1 \over p(x|y)} = I(x) - I(x|y)
      互信息量 = 原有不确定性 - 尚存在的不确定性

    2. 互易性:由 yy 所提供的关于 xx 的信息量 = 由 xx 所提供的关于 yy 的信息量,即 I(x;y)=I(y;x)I(x;y) = I(y;x)

      证明I(x;y)=log2p(xy)p(x)=log2p(xy)p(y)p(x)p(y)=log2p(xy)p(x)p(y)=log2p(yx)p(y)=I(y;x)I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{p(x|y)p(y) \over p(x)p(y)} = \log_{2}{p(xy) \over p(x)p(y)} = \log_{2}{p(y|x) \over p(y)} = I(y;x)

    3. 当事件 xxyy 统计独立时,互信息量为 0;即两个事件相互独立时,一个事件不能提供另一个事件的任何信息 。

      证明I(x;y)=log2p(xy)p(x)=log2p(x)p(x)=0I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{p(x) \over p(x)} = 0

    4. 互信息量可正可负。正表示 yy 的出现有利于确定 xx 的发生;负表示 yy 的出现不利于确定 xx 的发生 。

      无论正负,互信息量的绝对值越大,xxyy 的关系越密切。

    5. 互信息量不大于任一事件的自信息量 。

      证明I(x;y)=I(y;x)I(x;y) = I(y;x)
            I(x;y)=log2p(xy)p(x)log21p(x)=I(x)I(x;y) = \log_{2}{p(x|y) \over p(x)} \leq \log_{2}{1 \over p(x)} = I(x)
            I(y;x)=log2p(yx)p(y)log21p(y)=I(y)I(y;x) = \log_{2}{p(y|x) \over p(y)} \leq \log_{2}{1 \over p(y)} = I(y)

  • 单位及换算:同自信息量。

1.6 条件互信息量

  • 定义:联合事件集 XYZXYZ 中,在给定 zz 的条件下,xxyy 之间的互信息量称为条件互信息量,定义为:

    I(x;yz)=log2p(xyz)p(xz)(1.6)\begin{align*} I(x;y|z) = \log_{2}{p(x|yz) \over p(x|z)} \tag{1.6} \end{align*}

    条件互信息量衡量的是已知了 zz 后,yy 提供关于 xx 的信息量

  • 性质I(x;yz)=I(x;yz)I(x;z)I(x;y|z) = I(x;yz) - I(x;z)

    证明I(x;yz)=log2p(xyz)p(xz)=log2p(xyz)p(x)p(xz)p(x)=log2p(xyz)p(x)log2p(xz)p(x)=I(x;yz)I(x;z)I(x;y|z) = \log_{2}{p(x|yz) \over p(x|z)} = \log_{2}{p(x|yz)p(x) \over p(x|z)p(x)} = \log_{2}{p(x|yz) \over p(x)} - \log_{2}{p(x|z) \over p(x)} = I(x;yz) - I(x;z)

2. 离散事件集

离散事件集 X=x1,x2,,xqX = {x_1,x_2,\cdots,x_q},其概率分布表示为:

[XP]=[x1x2xqp(x1)p(x2)p(xq)]\begin{array}{c} \left[ \begin{matrix} X \\ P \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_q \\ p(x_1) & p(x_2) & \cdots & p(x_q) \end{matrix} \right] \end{array}

2.1 熵

假设 XX 中的每一个事件的自信息量分别为:I(x1)I(x2)I(xq)I(x_1) \,\, I(x_2) \cdots I(x_q),则所有这些自信息量的均值即为 XX平均自信息量,称为 XX

  • 定义:离散事件集 XX 中,事件的自信息量 I(x)I(x) 的数学期望定义为平均自信息量:

    H(X)=EX[I(x)]=EX[log2p(x)]=Xp(x)log2p(x)(2.1)\begin{align*} H(X) = E_X[I(x)] = E_X[-\log_{2}p(x)] = -\sum_X p(x)\log_{2}p(x) \tag{2.1} \end{align*}

    又称作集 XX 的信息熵,简称熵,H(X)H(X) 又可记作 H(p1,p2,,pq)H(p_1,p_2,\cdots,p_q)

  • 性质H(X)0H(X) \geq 0

    证明:源自自信息量的非负性

    H(X)=EX[I(x)]=Xp(x)log21p(x)\begin{array}{c} H(X) = E_X[I(x)] = \sum_{X} p(x)\log_{2}{1 \over p(x)} \end{array}

    当有且仅有一个 p(xi)=1p(x_i) = 1,其余的 p(xj)=0p(x_j) = 0 时,H(X)=0H(X) = 0,即确定事件集。

  • 单位及换算:同自信息量。

2.2 条件熵

  • 定义:条件自信息量 I(xy)I(x|y) 的概率均值称为条件熵,定义为:

    H(XY)=EXY[I(xy)]=XYp(xy)I(xy)=XYp(xy)log2p(xy)(2.2)\begin{align*} H(X|Y) = E_{XY}[I(x|y)] = \sum_{XY}p(xy)I(x|y) = -\sum_{XY}p(xy)\log_{2}p(x|y) \tag{2.2} \end{align*}

    条件熵衡量的是离散事件集 XX 在已知离散事件集 YY 后仍然保留的平均不确定性。

    H(Xy)=Xp(xy)log2p(xy)H(X|y) = -\sum_X p(x|y)\log_{2}p(x|y) 表示 yy 确定时,集合 XX 保留的平均不确定性。则

    H(XY)=Yp(y)H(Xy)=XYp(y)p(xy)log2p(xy)=XYp(xy)log2p(xy)\begin{array}{c} H(X|Y) = \sum_Y p(y)H(X|y) = -\sum_{XY}p(y)p(x|y)\log_{2}p(x|y) = -\sum_{XY}p(xy)\log_{2}p(x|y) \end{array}

  • 性质H(XY)0H(X | Y) \geq 0

    证明:因为 H(XY)=Yp(y)H(Xy)H(X | Y) = \sum_Y p(y) H(X | y),且 H(Xy)0H(X | y) \geq 0

XX 表示输入,YY 表示输出,则 H(XY)H(X|Y) 表示信道损失。若 XXYY 独立,易得 H(XY)=H(X)H(X|Y) = H(X)

2.3 联合熵

  • 定义:联合事件集 XYXY 上,联合自信息量 I(xy)I(xy) 的概率均值称为联合熵,定义式如下:

    H(XY)=EXY[I(xy)]=XYp(xy)I(xy)=XYp(xy)log2p(xy)(2.3)\begin{align*} H(XY) = E_{XY}[I(xy)] = \sum_{XY}p(xy)I(xy) = -\sum_{XY}p(xy)\log_{2}p(xy) \tag{2.3} \end{align*}

    联合熵又称为共熵,也可以记为 H(X,Y)H(X, Y)

    推广:设 X1,X2,,XkX_1,X_2,\cdots,X_k 为一组离散事件集合,则 X1,X2,,XkX_1,X_2,\cdots,X_k 的联合熵定义为:

    H(X1,X2,,Xk)=X1,X2,,Xkp(x1,x2,,xk)log2p(x1,x2,,xk)\begin{array}{c} H(X_1,X_2,\cdots,X_k) = -\sum_{X_1, X_2, \cdots, X_k} p(x_1,x_2,\cdots,x_k)\log_{2}p(x_1,x_2,\cdots,x_k) \end{array}

2.4 互信息

  • 定义:离散事件集合 XX 包含离散事件 YY 的平均信息量称为平均互信息量,简称互信息,定义为

    I(X;Y)=EXY[I(x;y)]=XYp(xy)log2p(xy)p(x)=XYp(xy)log2p(xy)p(x)p(y)(2.4)\begin{align*} I(X;Y) = E_{XY}[I(x; y)] = -\sum_{XY} p(x y) \log_{2} \frac{p(x|y)}{p(x)} = -\sum_{XY} p(x y) \log_2 \frac{p(xy)}{p(x) p(y)} \tag{2.4} \end{align*}

  • 性质

    1. 非负性I(X;Y)0I(X;Y) \geq 0

      证明I(X;Y)=H(X)H(XY)0I(X;Y) = H(X) - H(X|Y) \geq 0(证明见下文)

    2. 互易性(对称性):从集合 YY 中获得的关于 XX 的信息量等于从集合 XX 中获得的关于 YY 的信息量,即 I(X;Y)=I(Y;X)I(X;Y) = I(Y;X)

      证明I(X;Y)=XYp(xy)I(x;y)=YXp(yx)I(y;x)=I(Y;X)I(X;Y) = \sum_{XY}p(x y)I(x;y) = \sum_{YX}p(y x)I(y;x) = I(Y;X)

    3. 互信息与各类熵的关系:I(X;Y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)(证明见下文)

      • YY 决定 XX 时,即 H(XY)=0H(X|Y) = 0,有 I(X;Y)=H(X)I(X;Y) = H(X)
      • XX 决定 YY 时,即 H(YX)=0H(Y|X) = 0,有 I(X;Y)=H(Y)I(X;Y) = H(Y)
      • XXYY 相互独立时,H(XY)=H(X)H(X|Y) = H(X),即 I(X;Y)=0I(X;Y) = 0
    4. 极值性I(X;Y)min{(H(x),H(Y))}I(X; Y) \leq \min\{(H(x), H(Y))\}

      证明:因为 I(X;Y)=H(X)H(XY)I(X;Y) = H(X) - H(X|Y),且 H(XY)0H(X|Y) \geq 0

    5. 凸函数性:互信息是先验概率 p(x)p(x) 的上凸函数,是前向转移概率 p(yx)p(y|x) 的下凸函数。

      • 当信道固定时, 选择不同的信源( 其概率分布不同) ,在信道输出端接收到每个符号获得的平均信息量是不同的;当信源固定时,选择不同的信道(其转移概率分布不同)来传输同一信源符号时,在信道输出端接收到每个符号获得的平均信息量是不同的。
      • 对于一个固定的信源,一定存在着一种信源,使得输出端获得的平均信息量最大;对于一个固定的信源,一定存在着一种最差的信道,使得输出端获得的平均信息量最小。

3. 信息统计量的相关性质

3.1 熵函数的数学特性

  • 对称性:集合中各分量的次序任意变更时,熵值不变,即

    H(p1,p2)=H(p2,p1)H(p1,p2,,pn)=H(p2,p1,,pn)=H(pn,p1,,pn1)\begin{gather*} H(p_1,p_2) = H(p_2,p_1) \\ H(p_1,p_2,\cdots,p_n) = H(p_2,p_1,\cdots,p_n) = H(p_n,p_1,\cdots,p_{n-1}) \end{gather*}

    证明H(X)=i=1np(xi)log2p(xi)H(X) = -\sum_{i=1}^n p(x_i)\log_{2}p(x_i)

    换句话说,熵是有局限性的。因为它仅与随机事件集合的总体结构有关,没有考虑随机事件间的顺序,抹杀了个体的特性。

  • 非负性H(X)0H(X) \geq 0

    证明:源自自信息量的非负性

    H(X)=EX[I(x)]=Xp(x)log21p(x)\begin{array}{c} H(X) = E_X[I(x)] = \sum_{X} p(x)\log_{2}{1 \over p(x)} \end{array}

    当有且仅有一个 p(xi)=1p(x_i) = 1,其余的 p(xj)=0p(x_j) = 0 时,H(X)=0H(X) = 0,即确定事件集。

  • 扩展性limε0Hq+1(p1,p2,,pqε,ε)=Hq(p1,p2,,pq)\lim_{\varepsilon \rightarrow 0} H_{q+1}(p_1,p_2,\cdots,p_q - \varepsilon, \varepsilon) = H_q(p_1,p_2,\cdots,p_q)

    证明xlog2xx \log_{2} x[0,)[0, \infty) 上的连续性,limx0xlog2x=0\lim_{x \rightarrow 0} x \log_{2}x = 0

    也即是说,随机事件集合 XXqq 个事件,随机事件集合 YYXX 仅仅是多了一个概率接近 00 的事件,则两个集合的熵值一样。换句话说,在随机事件集合中,若一个事件发生的概率比其它事件发生的概率小得多时,则这个事件对于集合的熵值的贡献可以忽略。

  • 可加性:设 XXYY 为两个互相关联的随机事件集合,XX 的概率分布为 {p1,p2,,pm}\{ p_1,p_2,\cdots,p_m\}YY 的概率分布为 {q1,q2,,qn}\{q_1,q_2,\cdots,q_n\},则

    H(XY)=H(X)+H(YX)=H(Y)+H(XY)\begin{array}{c} H(XY) = H(X) + H(Y|X) = H(Y) + H(X|Y) \end{array}

    证明

    H(XY)=XYp(xy)log2p(xy)=XYp(xy)log2p(yx)p(x)=Xp(x)log2p(x)XYp(xy)log2p(yx)=H(X)+H(YX)=XYp(xy)log2p(xy)p(y)=Yp(y)log2p(y)XYp(xy)log2p(xy)=H(Y)+H(XY)\begin{array}{rcl} H(XY) & = & - \sum_{XY}p(xy)\log_{2}p(xy) \\ & = & - \sum_{XY}p(xy)\log_{2}p(y|x)p(x) \\ & = & - \sum_{X}p(x)\log_{2}p(x) - \sum_{XY}p(xy)\log_{2}p(y|x) \\ & = & H(X) + H(Y|X) \\ & = & - \sum_{XY}p(xy)\log_{2}p(x|y)p(y) \\ & = & - \sum_{Y}p(y)\log_{2}p(y) - \sum_{XY}p(xy)\log_{2}p(x|y) \\ & = & H(Y) + H(X|Y) \end{array}

    XXYY 相互独立时,H(XY)=H(X)+H(Y)H(XY) = H(X) + H(Y)

    可以将可加性推广到多个随机事集合:

    1. 熵的可加性可推广到多个随机事件集合的情况:

      H(X1X2XN)=H(X1)+H(X2X1)+H(X3X1X2)++H(XNX1X2XN1)\begin{array}{c} H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2 | X_1) + H(X_3|X_1 X_2) + \cdots + H(X_N | X_1 X_2 \cdots X_{N-1}) \end{array}

    2. 当这些随机变量统计独立时:

      H(X1X2XN)=H(X1)+H(X2)++H(XN)\begin{array}{c} H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2) + \cdots + H(X_N) \end{array}

  • 极值性H(X)=H(p1,p2,,pn)H(1n,1n,,1n)=log2nH(X) = H(p_1,p_2,\cdots,p_n) \leq H(\frac{1}{n},\frac{1}{n},\cdots,\frac{1}{n}) = \log_{2}n;因此,各事件等概率发生时,熵最大(最大熵定理)。

    证明H(X)=Xp(x)log2p(x)H(X) = -\sum_X p(x)\log_{2}p(x),而 f(x)=xlog2xf(x) = -x\log_{2}x 函数在区间 [0,1][0,1] 上为严格上凸函数(证明见下文上凸性),故由琴生不等式(参见凸函数及其性质)可知:

    H(X)=E[I(x)]=E[f[p(x)]]f[E[P(xi)]]=log21n=log2n\begin{array}{rcl} H(X) & = & E[I(x)] \\ & = & E[f[p(x)]] \\ & \leq & f[E[P(x_i)]] \\ & = & - \log_{2}{1 \over n} \\ & = & \log_{2}n \end{array}

    等号成立当且仅当

    p(x1)=p(x2)==p(xn)=1n\begin{array}{c} p(x_1) = p(x_2) = \cdots = p(x_n) = {1 \over n} \end{array}

    凸函数定义及相关性质参见凸函数及其性质

  • 确定性:集合中只要有一个事件为必然事件,则其余事件为不可能事件,此时熵为 00

    H(1,0)=H(1,0,0)==H(1,0,,0)=0\begin{array}{c} H(1,0) = H(1,0,0) = \cdots = H(1,0,\cdots,0) = 0 \end{array}

  • 上凸性H(p1,p2,,pq)H(p_1,p_2,\cdots,p_q) 是概率分布 (p1,p2,,pq)(p_1,p_2,\cdots,p_q) 上的严格上凸函数。

    证明:设 pppp^{'} 分别为两个概率分布,p=pp = p^{'}0<α<10 < \alpha < 1,则需证明

    H[αp+(1α)p]>αH(p)+(1α)H(p)\begin{array}{c} H[\alpha p + ( 1-\alpha )p^{'}] > \alpha H(p) + ( 1 - \alpha )H(p^{'}) \end{array}

    由于函数 f(x)=xlog2xf(x) = -x \log_{2} x 在区间 [0,1][0,1] 是严格上凸函数,证明如下:

    • 对于 0<α<10 < \alpha < 1,任取 0x1,x210 \leq x_1, x_2 \leq 1x1=x2x_1 = x_2,不妨假设 0x1<x210 \leq x_1 < x_2 \leq 1,要证

      f[αx1+(1α)x2]αf(x1)(1α)f(x2)=(αx1+(1α)x2)log2(αx1+(1α)x2)+αx1log2x1+(1α)x2log2x2>0\begin{array}{rcl} & & f[\alpha x_1 + (1-\alpha )x_2] - \alpha f(x_1) - (1 - \alpha )f(x_2) \\ & = & -(\alpha x_1 + (1-\alpha )x_2)\log_{2}(\alpha x_1 + (1-\alpha )x_2) + \alpha x_1 \log_{2}x_1 + (1-\alpha )x_2 \log_{2}x_2 \\ & > & 0 \end{array}

      1. x1=0x_1 = 0,则上式等价于

        (1α)x2log2((1α)x2)+(1α)x2log2x2>0(1α)x2log21(1α)>0\begin{array}{rcl} & & -(1-\alpha )x_2 \log_{2}((1-\alpha )x_2) + (1-\alpha )x_2 \log_{2}x_2 > 0 \\ & \Leftrightarrow & (1-\alpha )x_2 \log_{2}{1 \over (1-\alpha )} > 0 \end{array}

        易知对于 0<α<10 < \alpha < 1 恒成立。

      2. x1=0x_1 = 0,则上式等价于

        αx1log2(α+(1α)x2x1)(1α)x2log2(αx1x2+(1α))>0αlog2(α+(1α)x2x1)+(1α)x2x1log2(αx1x2+(1α))<0\begin{array}{rcl} & & -\alpha x_1 \log_{2}(\alpha + (1-\alpha ){x_2 \over x_1}) - (1-\alpha )x_2 \log_{2}(\alpha {x_1 \over x_2} + (1-\alpha )) > 0 \\ & \Leftrightarrow & \alpha \log_{2}(\alpha + (1-\alpha ){x_2 \over x_1}) + (1-\alpha ){x_2 \over x_1}\log_{2}(\alpha {x_1 \over x_2} + (1 - \alpha )) < 0 \end{array}

        t=x2x1t = {x_2 \over x_1},则 t>1t > 1,上式等价于

        αlog2(α+(1α)t)+(1α)tlog2(α1t+(1α))<0\begin{array}{c} \alpha \log_{2}(\alpha + (1-\alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + (1 - \alpha )) < 0 \end{array}

        h(t)=αlog2(α+(1α)t)+(1α)tlog2(α1t+(1α))h(t) = \alpha \log_{2}(\alpha + (1 - \alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + (1 - \alpha ))t>1t > 1,则

        h(t)=(1α)log2(α1t+(1α))\begin{array}{c} h^{'}(t) = (1 - \alpha )\log_{2}(\alpha {1 \over t} + (1 - \alpha )) \end{array}

        易知 h(t)h^{'}(t)t>1t > 1 上递减,故 h(t)<h(1)=0h^{'}(t) < h^{'}(1) = 0。所以 h(t)h(t)t>1t > 1 上递减,因此 h(t)<h(1)=0+0=0h(t) < h(1) = 0 + 0 = 0。即

        αlog2(α+(1α)t)+(1α)tlog2(α1t+1α))<0\begin{array}{c} \alpha \log_{2}(\alpha + (1 - \alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + (1 - \alpha )) < 0 \end{array}

        综上,函数 f(x)=xlog2xf(x) = -x\log_{2}x在区间 [0,1][0,1] 上是严格上凸函数。

    证明了 f(x)=xlog2xf(x) = -x \log_{2} x 为严格上凸函数后,回到证明 H(p1,p2,,pq)H(p_1,p_2,\cdots,p_q) 的上凸性。由于 0<α<10 < \alpha < 1i=1np(xi)=1\sum_{i=1}^n p(x_i) = 1i=1np(xi)=1\sum_{i=1}^n p^{'}(x_i) = 1

    H(p)=i=1np(xi)log2p(xi)H(p)=i=1np(xi)log2p(xi)H(αp+(1α)p)=i=1n(αp(xi)+(1α)p(xi))log2(αp(xi)+(1α)p(xi))\begin{array}{rcl} H(p) & = & -\sum_{i=1}^n p(x_i)\log_{2}p(x_i) \\ H(p^{'}) & = & -\sum_{i=1}^n p^{'}(x_i) \log_{2} p^{'}(x_i) \\ H(\alpha p + (1-\alpha )p^{'}) & = & -\sum_{i=1}^n (\alpha p(x_i) + (1-\alpha )p^{'}(x_i))\log_{2}(\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \end{array}

    由函数 f(x)=xlog2xf(x) = -x\log_{2}x 的严格上凸性和凸函数及其性质可知,i{1,2,,n}\forall i \in \{ 1,2,\cdots, n\},都有:

    (αp(xi)+(1α)p(xi)log2((αp(xi)+(1α)p(xi))αp(xi)log2p(xi)(1α)p(xi)log2p(xi)\begin{array}{rcl} & & -(\alpha p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}((\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \\ & \geq & -\alpha p(x_i)\log_{2}p(x_i) - (1-\alpha )p^{'}(x_i)\log_{2}p^{'}(x_i) \end{array}

    成立,且等号成立当且仅当 p(xi)=p(xi)p(x_i) = p^{'}(x_i)。由假设可知,p=qpp =q p^{'},故

    i=1n(αp(xi)+(1α)p(xi)log2((αp(xi)+(1α)p(xi))>i=1n(αp(xi)log2p(xi)+(1α)p(xi)log2p(xi))\begin{array}{rcl} & & -\sum_{i=1}^n (\alpha p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}((\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \\ & > & -\sum_{i=1}^n(\alpha p(x_i)\log_{2}p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}p^{'}(x_i)) \end{array}

    也即

    H[αp+(1α)p]>αH(p)+(1α)H(p)H[\alpha p + (1 - \alpha )p^{'}] > \alpha H(p) + (1-\alpha )H(p^{'})

    故命题得证。

3.2 各种熵之间的关系

  • H(XY)=H(X)+H(YX)=H(Y)+H(XY)H(XY) = H(X) + H(Y|X) = H(Y) + H(X|Y)

  • H(XY)H(X)H(X|Y) \leq H(X),等式成立当且仅当 XXYY 相互独立

    证明

    H(XY)=XYp(xy)log2p(xy)=XYp(xy)log2p(xy)p(x)p(y)p(x)=H(X)XYp(xy)log2p(xy)p(x)p(y)=H(X)+XYp(xy)log2p(x)p(y)p(xy)H(X)\begin{array}{rcl} H(X|Y) & = & -\sum_{XY}p(xy)\log_{2}p(x|y) \\ & = & -\sum_{XY}p(xy)\log_{2}{p(xy)p(x) \over p(y)p(x)} \\ & = & H(X) -\sum_{XY}p(xy)\log_{2}{p(xy) \over p(x) p(y)} \\ & = & H(X) + \sum_{XY}p(xy)\log_{2}{p(x)p(y) \over p(xy)} \\ & \leq & H(X) \end{array}

  • H(XY)H(X)+H(Y)H(XY) \leq H(X) + H(Y)

3.3 加权熵

  • 定义:离散事件集 X=x1,x2,,xqX = {x_1,x_2,\cdots,x_q},其概率分布和权重分布表示为:

[XPW]=[x1x2xnp(x1)p(x2)p(xn)w1w2wn]\begin{array}{c} \left[ \begin{matrix} X \\ P \\ W \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_n \\ p(x_1) & p(x_2) & \cdots & p(x_n) \\ w_1 & w_2 & \cdots & w_n \end{matrix} \right] \end{array}

其中,wi0w_i \geq 0。则加权熵定义为:

HW(X)=i=1nwip(xi)log2p(xi)\begin{array}{c} H_W(X) = -\sum_{i=1}^n w_i p(x_i) \log_{2} p(x_i) \end{array}

3.4 其它熵