14.6.1. 情報量と平均情報量
これまで0
または1
をとる表現を1bit とし、bitの列の長さを情報の量のように使ってきました。
ここで一旦それらを忘れて、理論的な情報量とbitを新たに定義します。少し後で、両者はつながります。
情報量 #
理論的な情報量を「その情報を得たことで未知の世界のどれほどが確定したか」を表現できるように、確率と関連付けて定義したいとします。 その際 情報量の加法性 として、情報を1度に得た場合の情報量は、小出しに得たの場合の和と等しいという制約のもとで考えます。
未知の状態を集合 \(\Omega\) で定義し、その要素をイベント \(e\in \Omega\) と呼び、どれか一つが生じたとします。 それぞれの確率を \(p(e)\) と表記します。部分集合 \(A\subseteq \Omega\) について要素のどれかが生ずる確率を \(p(A)=\sum_{e\in A}p(e)\) と書き、確率の公理から \(0 < p(e) \le 1\) 、 \(p(\Omega) = 1\) です (確率0のイベントは集合 \(\Omega\) から除いておくことにします)。
公平な6面体サイコロなら、
- \(\Omega=\{e_1,e_2,e_3,e_4,e_5,e_6\}\quad\) ( \(e_i\) は出た目が \(i\) )
- \(p(e_i) = 1/6\)
-
\(A_\text{even} = \underbrace{\{e_2,e_4,e_6\}}_{\text{出た目が偶数}}\)
とすると
\(p(A_\text{even}) = \sum_{e\in\{e_2,e_4,e_6\}} p(e) = 1/2\) -
\(A_{<3} = \underbrace{\{e_1,e_2\}}_{\text{3未満}}\)
とすると
\(p(A_{<3} \cap A_\text{even})=\{e_2\}\)
なので
\[p(A_{<3}|A_\text{even}) = \frac{p(A_{<3} \cap A_\text{even})}{A_\text{even}} = \frac{p(e_2)}{p(A_\text{even})} = \frac{1/6}{1/2}=1/3\]
情報は「部分集合 \(A\subseteq \Omega\) に絞られたよ」というタイプのメッセージであたえられ、メッセージの情報量を定めます。
情報量の加法性は、サイコロの例では (1)「出た目は2」というメッセージの情報量と、(2)「出た目は偶数」というメッセージに続いて「出た目は3未満」というメッセージを受け取ったときの両者のメッセージの情報量の合計について、(1)(2)が等しい、という内容です \[\texttt{情報量}(A_\text{even}) + \texttt{情報量}(A_{<3}|A_\text{even}) = \texttt{情報量}(A_\text{even}\cap A_{<3}) = \texttt{情報量}(\{e_2\})\]
これを満たす関数は、確率の積と情報量の和が対応することから、
\(-\log p\)
の形になります。
情報科学では 底を2として以下のように情報量を定め、これを bit
と呼びます。
底を 2としたことは「同様に確からしい 2 つの事象の一方が起きるときの情報量を 1 とする」と定めたことに相当し、
0
と1
のどちらかが等確率で生じると仮定すれば、これまでの1bitの定義と1bitの情報量をもつメッセージが対応します。
nat
nat
と呼びます。
logの導出
技術的な補足をしておきます。加法性から 導かれる
\[I(1) = 0\]を以下で使います。連続極限に移行するときのことを考えて I を正の実数全体で定義し、かつ加法性と微分可能性を課します。すると、まず
\[\frac{I(x+hx) – I(x)}{hx} = \frac{I(1+h)}{hx}\]となります。次のように極限を c とおくと、
\[\lim_{h \to 0}\frac{I(1+h)}{h} = I'(1) = c\]導関数は
\[I'(x) = c/x\]と分かります。この両辺を積分して以下を得ます。
\[I(x) = c \log x + d\]最後に規格化条件
\[I(1/2) = 1\]を合わせることで 定数が決定されます。
\[I(x) = -\log_2x\]平均情報量 #
集合 \(\Omega=\{e_1,e_2,\cdots,e_n\}\) に対して、メッセージ \(\{e_i\}\) の情報量は \(-\log_2 p(e_i) \) と定義されました。 一方で各イベントは \( p(e_i) \) で生ずるので、 メッセージの情報量の期待値を考えます。これを平均情報量 \(H\) (またはエントロピー) といいます:
\[H = \mathbb{E}_{e\in \Omega}(\underbrace{-\log_2 p(e)}_{e \text{の情報量}}) \doteq \sum_{e\in \Omega} p(e)(-\log_2 p(e)) = - \sum_{e\in \Omega} p(e) \log_2 p(e)\]確率 \(p_h\) で表が出るコインの平均情報量は \[H=-p_h\log_2 p_h - (1-p_h)\log_2 (1-p_h)\] で、 \(p_h=0.5\) の時に最大値 \( -1/2 \log_2 (1/2) -1/2 \log_2 (1/2)=1 \) となります。
平均情報量は以下の性質を持ちます
- イベントが等確率で起きるとき最大値をとる。とくに要素数が
\(2^n\)
のとき、
\(- 2^n\cdot 1/2^n \log_2 (1/2^n) = n \) - あるイベントの確率が1に近づくと、平均情報量は 0 に近づく
平均情報量は情報としてのエントロピーで、物理のエントロピーとは別の量ですが、乱雑さの指標という点で共通の性質を持ちます。