情報量と平均情報量

14.5.1. 情報量と平均情報量

これまで0または1をとる表現を1bit とし、bitの列の長さを情報の量のように使ってきました。 ここで一旦それらを忘れて、理論的な情報量とbitを新たに定義します。少し後で、両者はつながります。

情報量 #

理論的な情報量を「その情報を得たことで未知の世界のどれほどが確定したか」を表現できるように、確率と関連付けて定義したいとします。 その際 情報量の加法性 として、情報を1度に得た場合の情報量は、小出しに得たの場合の和と等しいという制約のもとで考えます。

未知の状態を集合 \(\Omega\) で定義し、その要素をイベント \(e\in \Omega\) と呼び、どれか一つが生じたとします。 それぞれの確率を \(p(e)\) と表記します。部分集合 \(A\subseteq \Omega\) について要素のどれかが生ずる確率を \(p(A)=\sum_{e\in A}p(e)\) と書き、確率の公理から \(0 < p(e) \le 1\) \(p(\Omega) = 1\) です (確率0のイベントは集合 \(\Omega\) から除いておくことにします)。

公平な6面体サイコロなら、

  • \(\Omega=\{e_1,e_2,e_3,e_4,e_5,e_6\}\quad\) ( \(e_i\) は出た目が \(i\) )
  • \(p(e_i) = 1/6\)
  • \(A_\text{even} = \underbrace{\{e_2,e_4,e_6\}}_{\text{出た目が偶数}}\) とすると
    \(p(A_\text{even}) = \sum_{e\in\{e_2,e_4,e_6\}} p(e) = 1/2\)
  • \(A_{<3} = \underbrace{\{e_1,e_2\}}_{\text{3未満}}\) とすると \(p(A_{<3} \cap A_\text{even})=\{e_2\}\) なので
    \[p(A_{<3}|A_\text{even}) = \frac{p(A_{<3} \cap A_\text{even})}{A_\text{even}} = \frac{p(e_2)}{p(A_\text{even})} = \frac{1/6}{1/2}=1/3\]

情報は「部分集合 \(A\subseteq \Omega\) に絞られたよ」というタイプのメッセージであたえられ、メッセージの情報量を定めます。

情報量の加法性は、サイコロの例では (1)「出た目は2」というメッセージの情報量と、(2)「出た目は偶数」というメッセージに続いて「出た目は3未満」というメッセージを受け取ったときの両者のメッセージの情報量の合計について、(1)(2)が等しい、という内容です \[\texttt{情報量}(A_\text{even}) + \texttt{情報量}(A_{<3}|A_\text{even}) = \texttt{情報量}(A_\text{even}\cap A_{<3}) = \texttt{情報量}(\{e_2\})\]

これを満たす関数は、確率の積と情報量の和が対応することから、 \(-\log p\) の形になります。 情報科学では 底を2として以下のように情報量を定め、これを bit と呼びます。

\[\texttt{情報量}(A) = -\log_2 p(A)\]

底を 2としたことは「同様に確からしい 2 つの事象の一方が起きるときの情報量を 1 とする」と定めたことに相当し、 01のどちらかが等確率で生じると仮定すれば、これまでの1bitの定義と1bitの情報量をもつメッセージが対応します。

nat
底を自然対数にとった情報量を nat と呼びます。
logの導出

技術的な補足をしておきます。加法性から 導かれる

\[I(1) = 0\]

を以下で使います。連続極限に移行するときのことを考えて I を正の実数全体で定義し、かつ加法性と微分可能性を課します。すると、まず

\[\frac{I(x+hx) – I(x)}{hx} = \frac{I(1+h)}{hx}\]

となります。次のように極限を c とおくと、

\[\lim_{h \to 0}\frac{I(1+h)}{h} = I'(1) = c\]

導関数は

\[I'(x) = c/x\]

と分かります。この両辺を積分して以下を得ます。

\[I(x) = c \log x + d\]

最後に規格化条件

\[I(1/2) = 1\]

を合わせることで 定数が決定されます。

\[I(x) = -\log_2x\]

平均情報量 #

集合 \(\Omega=\{e_1,e_2,\cdots,e_n\}\) に対して、メッセージ \(\{e_i\}\) の情報量は \(-\log_2 p(e_i) \) と定義されました。 一方で各イベントは \( p(e_i) \) で生ずるので、 メッセージの情報量の期待値を考えます。これを平均情報量 \(H\) (またはエントロピー) といいます:

\[H = \mathbb{E}_{e\in \Omega}(\underbrace{-\log_2 p(e)}_{e \text{の情報量}}) \doteq \sum_{e\in \Omega} p(e)(-\log_2 p(e)) = - \sum_{e\in \Omega} p(e) \log_2 p(e)\]

確率 \(p_h\) で表が出るコインの平均情報量は \[H=-p_h\log_2 p_h - (1-p_h)\log_2 (1-p_h)\] で、 \(p_h=0.5\) の時に最大値 \( -1/2 \log_2 (1/2) -1/2 \log_2 (1/2)=1 \) となります。

平均情報量は以下の性質を持ちます

  • イベントが等確率で起きるとき最大値をとる。とくに要素数が \(2^n\) のとき、
    \(- 2^n\cdot 1/2^n \log_2 (1/2^n) = n \)
  • あるイベントの確率が1に近づくと、平均情報量は 0 に近づく

平均情報量は情報としてのエントロピーで、物理のエントロピーとは別の量ですが、乱雑さの指標という点で共通の性質を持ちます。

情報理論と符号化 情報量と平均情報量 可変長符号化