連続確率分布の平均情報量(エントロピー)

連続確率分布平均情報量(エントロピー) を導出します。

始めに 離散確率分布選択情報量情報量、そして 平均情報量 の定義を JIS規格 で確認します。

日本産業規格 JIS X 0016:1997 情報処理用語(情報理論) による 選択情報量情報量平均情報量 の定義は以下のとおりです。

選択情報量(decision content)

互いに排反な事象から成る有限集合中の事象の数の対数。数学的には、この選択的情報量は\[H_0=\textrm{log}\,n\]で表される。ここで、\(n\) は事象の数である。

備考

  1. 情報理論において、“事象”は、確率論で使用されるものと同様である。事象の例には次のようなものがある。
    • ある要素 集合の中に特定の要素が存在すること。
    • ある通報の中又はある通報の特定の位置に、ある文字又はある語が存在すること。
    • ある実験から得られる結果の一つ。
  2. 対数の底によって単位が定まる。 よく使われる単位には次のものがある。
    • 対数の底が 2 のときは シャノン (記号は \(\mathrm{Sh}\))。
    • 対数の底が e のときは ナット (記号は \(\mathrm{nat}\)).
    • 対数の底が 10 のときは ハートレー (記号は \(\mathrm{Hart}\))。
    • 単位の変換表を次に示す。 \[\begin{eqnarray} 1\,\mathrm{Sh} &=& 0.693\,\mathrm{nat} &=& 0.301\,\mathrm{Hart}\\ 1\,\mathrm{nat} &=& 1.443\,\mathrm{Sh} &=& 0.434\,\mathrm{Hart}\\ 1\,\mathrm{Hart} &=& 3.322\,\mathrm{Sh} &=& 2.303\,\mathrm{nat} \end{eqnarray}\]
  3. 選択的情報量は、事象の生起確率に対して独立である。
  4. 有限個の互いに排反な事象から成る有限集合の中から、特定の事象を選択するために必要な、b個の選択肢からの選択回数は、bを底とする対数で定義した選択情報量の小数部分を切り上げた整数に等しい。ただし、bは整数とする。
    • {a,b,c}を三つの事象から成る集合とすると、この集合の選択情報量は次のとおり。 \[\begin{eqnarray}H_0&=&(\mathrm{log}_23)\,\mathrm{Sh}&=&1.585\,\mathrm{Sh}\\ &=&(\mathrm{log}_e3)\,\mathrm{nat}&=&1.098\,\mathrm{nat}\\ &=&(\mathrm{log}_{10}3)\,\mathrm{Hart}&=&0.477\,\mathrm{Hart}\end{eqnarray}\]

出典 : 日本産業規格 JIS X 0016:1997 情報処理用語(情報理論)

情報量(information content)

確率事象の生起を知ることによって伝えられる情報の尺度。この尺度はその事象の生起確率の逆数の対数に等しく、数学的には、\[I(x)=\mathrm{log}\dfrac{1}{p(x)}=-\mathrm{log}\,p(x)\]で表される。ここで、\(p(x)\) は事象 \(x\) の生起確率である。

備考

  1. 上記 選択情報量(decision content)備考 1 参照。
  2. 生起確率が等しい事象から成る集合では、各事象の情報量はその集合の選択情報量に等しい。
    • {a,b,c}を三つの事象から成る集合とし、各事象の生起確率を \(p(a)=0.5\)\(p(b)=0.25\)\(p(c)=0.25\) とする。これらの事象の情報量は次のとおり。
\[\begin{eqnarray} I(a)=\mathrm{log}_2\dfrac{1}{0.50}\mathrm{Sh}=1\,\mathrm{Sh}\\ I(b)=\mathrm{log}_2\dfrac{1}{0.25}\mathrm{Sh}=2\,\mathrm{Sh}\\ I(c)=\mathrm{log}_2\dfrac{1}{0.25}\mathrm{Sh}=2\,\mathrm{Sh}\\ \end{eqnarray}\]

出典 : 日本産業規格 JIS X 0016:1997 情報処理用語(情報理論)

エントロピー、平均情報量(entropy,average information content)

有限の完全事象系の中から、いずれの事象が生起したかを知ることによって伝えられる情報量の平均値。数学的には、 \[H(X)=\displaystyle\sum_{i=1}^np(x_i)I(x_i)=\displaystyle\sum_{i=1}^np(x_i)\,\mathrm{log}\dfrac{1}{p(x_i)}\] で表される。ここで、\(X=\{x_1,\cdots,x_n\}\) は事象 \(x_i\,(i=1,\cdots,n)\) の集合、\(I(x_i)\) は事象の情報量、及び \(p(x_i)\) は事象 \(x_i\) の生起確率であって、 \[\displaystyle\sum_{i=1}^np(x_i)=1\] を満たすものとする。

備考 完全事象系とは、それを構成する事象が互いに排反であり、すべての事象の和集合が全事象に一致する事象系をいう。

{a,b,c} を三つの事象から成る集合とし、各事象の生起確率を \(p(a)=0.5\)\(p(b)=0.25\) 及び \(p(c)=0.25\) とする。この集合のエントロピーは次のとおり。 \[H(X)=p(a)I(a)+p(b)I(b)+p(c)I(c)=1.5\,\mathrm{Sh}\]

出典 : 日本産業規格 JIS X 0016:1997 情報処理用語(情報理論)

上記の 選択情報量平均情報量 の定義は以下の引用のとおりに表現することもできます。

情報量の定義には、「その事象がもたらす知らせの大きさ」として定義するものと、「可能性のある事象の全体から想定される知らせの大きさの期待値(平均値)」として定義するものとがあります。前者を選択的情報量、後者を平均情報量(エントロピー)と呼んで区別します。

出典 : https://design.kyusan-u.ac.jp/OpenSquareJP/?InformationTheory

それでは 連続確率分布平均情報量 を考えます。

なお、以降の数式、導出は以下の資料を参照引用しています。

  1. https://ocw.hokudai.ac.jp/wp-content/uploads/2016/01/InformationTheory-2005-Note-11.pdf
  2. https://www.med.oita-u.ac.jp/IS/Jriron20130419.pdf

\(x\)離散値 \(x_i\,(i=-\infty,\cdots,-1,0,1,\cdots,\infty)\) をとるものとして、\(\Delta x \equiv x_{i+1}-x_i\) と定義すると、確率変数 が区間 \((x_i,x_{i+1})\) にある値をとる確率は \(p(x_i)\Delta x\) となるため \(\Delta x\rightarrow0\) の極限をとることにより 連続確率分布平均情報量 の定義とすることが可能となります。

\[\begin{eqnarray} H(X)&\equiv& -\displaystyle\lim_{\Delta x\rightarrow0}\displaystyle\sum_{i=-\infty}^\infty p(x_i)\Delta x\log\{p(x_i)\Delta x\}\\ &=&-\lim_{\Delta x\rightarrow0}\displaystyle\sum_{i=-\infty}^\infty p(x_i)\Delta x\log p(x_i)-\lim_{\Delta x\rightarrow0}\displaystyle\sum_{i=-\infty}^\infty p(x_i)\Delta x\log \Delta x\end{eqnarray}\] ここで、\[\displaystyle\sum_{i=-\infty}^\infty p(x)\Delta x=1\]であるため \[H(X)\equiv -\displaystyle\int_{-\infty}^\infty p(x)\log p(x)dx-\lim_{\Delta x\rightarrow0}\log\Delta x\] となります。

右辺第二項は \(\Delta x\rightarrow0\)連続極限 をとった場合に 発散 してしまいますので、同項をゼロとおき、連続確率分布平均情報量 は形式的に \[H(X)= -\displaystyle\int_{-\infty}^\infty p(x)\log p(x)dx\] と導出されます。

一方でエントロピーを具体的に計算する際には \(−\displaystyle\lim_{\Delta x\rightarrow0}\log(\Delta x)\) の値を具体的にどう処理するのか, という問題が残る. しかし,その値をいくつに置くかは本質的な問題ではなく, ケース・バイ・ケースで適当な値を選んでよい (通常はゼロとおく場合が多いように思われる) . 重要なのは連続変数の場合, エントロピー自体の値には意味がなく, その差にこそ意味があるという点である.

出典 : https://ocw.hokudai.ac.jp/wp-content/uploads/2016/01/InformationTheory-2005-Note-11.pdf

以上です。