【E資格試験対策】情報科学（交差エントロピーと相互情報量）のポイントを解説！

2023年10月1日2026年6月4日

機械学習には興味があるけど「情報科学」が理解できるか不安･･･
「情報科学」についてどこから学んでいいか分からない？
「情報科学」を体系的に教えて！

　「情報科学」は機械学習（深層学習を含む）において用いられれている重要なものですが、興味があっても難しそうで何から学んだらよいか分からず、勉強のやる気を失うケースは非常に多いです。

　私は過去に基本情報技術者試験（旧：第二種情報処理技術者試験）に合格し、また2年程前に「一般社団法人日本ディープラーニング協会」が主催の「G検定試験」に合格しました。現在、「E資格」にチャレンジ中ですが３回不合格になり、この経験から学習の要点について学ぶ機会がありました。

　そこでこの記事では、「情報科学」のうち「交差エントロピー」や「相互情報量」等についてポイントを解説します。

　この記事を参考にして「情報科学」が理解できれば、E資格に合格できるはずです。

<<「情報科学」のポイントを今すぐ見たい方はコチラ

情報量

情報量とは･･･

学生

増えた情報量は同じなのに、何が違うの？

著者

増加の「比率」が違うよ!!

自己情報量

自己情報量とは･･･

I(x)＝ーlog_a(P(x))
　　= log_a(W(x))

I(x)：自己情報量
P(x)：確率
W(x)：全情報量
P(x)＝1/W(x) ← P(x)とW(x)の関係

対数の底(a)が2のとき、単位はビット(bit)
対数の底(a)がネイピア(=自然対数の底)eのとき、単位は(nat)

学生

なぜ、自己情報量はわざわざ確率P(x)の対数をとるのかな？

著者

対数をとる理由は次の2つあるよ!!
①確率P(x)が小さくなるほど自己情報量I(x)を大きくしたいから(確率が小さい（＝より珍しい情報＝より価値のある情報）ほど自己情報量は大きいと考えるよ)
②自己情報量I(x)を求める計算を楽にしたいから(対数にすると計算が足し算になるよ)

シャノンエントロピー

単に「エントロピー」ともいう
微分エントロピーともいうが、微分しているわけではない。
(differentialの誤訳か？)
自己情報量の期待値 ← 情報の珍しさ（=情報の価値が大きさ）の平均値のようなもの
H(x) ＝ E(I(x))
　　 =ｰE(log(P(x)))
　　 =ｰΣ(P(x)log(P(x)))

学生

上のグラフはどういう意味があるの？

著者

コインの表と裏の出る確率が、
　表が出る確率が50%（=0.5）
　裏が出る確率が50%（＝0.5）
のとき、表が出た情報に最も価値がある（＝現実に最も近い情報）といえるよ!!

学生

じゃコインが表の出る確率が100%のとき表が出たという情報に価値はないの？

著者

100%表の出るコインで表が出ても
その情報は珍しくないから情報に価値はない（=現実と合っていない）と考えるよ!!

学生

シャノンエントロピーは何の役に立つの？

著者

シャノンエントロピーで現実を予想できるよ。
機械学習において、シャノンエントロピーを最大にするよう誤差関数に組み込むことで現実を予想できるかもしれないよ!!

KLｰダイバージェンス

KLｰダイバージェンスとは･･･

KLｰダイバージェンス（Kullback-Leibler divergence）
KullbackとLeiblerは人名
同じ事象・確率変数における異なる確率分布P,Qの違いを表す

学生

カルバック・ライブラー　ダイバージェンスは確率分布P､Qの違いを表す距離みたいなもの？

著者

距離と似ているけど距離ではないんだよ!!
なぜなら、KLｰダイバージェンスの式は二つの確率分布の順番を入れ替えると式の値が変わるからだよ!

D_KL(P||Q)：カルバック・ライブラーダイバージェンスとは古い確率分布Qが分かった後、起こった新しい確率分布Pから眺めた時にどれくらい情報が違うかを示したもの
P：Qの後に起こった確率分布
Q：Pの前に分かった確率分布

比較する二つの確率分布が同じとき、KLｰダイバージェンスの値はいくつになるか？

KLｰダイバージェンスの応用例

VAE（変分オートエンコーダー）においてKLｰダイバージェンスを正則化項として加える。

JSｰダイバージェンス

JSｰダイバージェンスとは･･･

KLｰダイバージェンスの式は二つの確率分布の順番を入れ替えると式の値が変わるため、JSｰダイバージェンスの式が用いれらることがある。
応用例）
GAN（画像認識＆画像生成）のDiscriminatorにおいて２つの確率分布がどれくらい近いかを判定するために使用

JSｰダイバージェンスは二つの確率分布を入れ替えても対称性が成り立つ。
引用元：「VasteeLab」

様々なエントロピー

交差エントロピー

交差エントロピーとは･･･

カルバック・ライブラーダイバージェンスの一部分を取り出したもの
Qについての自己情報量をPの分布で平均している

D_KL(P||Q)：カルバック・ライブラーダイバージェンスとは古い確率分布Qが分かった後、起こった新しい確率分布Pから眺めた時にどれくらい情報が違うかを示したもの
H(P,Q)：logQ(x)をPで平均したもの

結合エントロピー

P(x_i,y_i)：x_iとy_iが同時に起こる確率
logの底は2

ある商店で、1時間に80人の客が来店した。来店した客の性別の内訳と、客が眼鏡をしているかの内訳は以下のとおりであった。

	男	女	合計
眼鏡有	10人	10人	20人
眼鏡無	40人	20人	60人
合計	50人	30人	80人

来店した客の性別の内訳と客が眼鏡をしているかの内訳

この時に来店した客の性別と、その客が眼鏡をしているかを知った時の同時エントロピー（結合エントロピー）の値を求めよ。

同時エントロピーは定義式は以下のとおりである。

P(x_i,y_i)は「x_iとy_iが同時に起こる確率」であるから、次のように整理する。
x₁：男
x₂：女
y₁：眼鏡有
y₂：眼鏡無

H(X,Y)=ｰP(x₁,y₁)log₂(P(x₁,y₁))-P(x₁,y₂)log₂(P(x₁,y₂))
-P(x₂,y₁)log₂(P(x₂,y₁))-P(x₂,y₂)log₂(P(x₂,y₂))　･･･①

P(x₁,y₁)＝10/80=1/8　･･･②
P(x₁,y₂)＝40/80=1/2　･･･③
P(x₂,y₁)＝10/80=1/8　･･･④
P(x₂,y₂)＝20/80=1/4　･･･⑤

②,③,④,⑤を①へ代入すると

H(X,Y)=-(1/8)log₂(1/8)-(1/2)log₂(1/2)
-(1/8)log₂(1/8)-(1/4)log₂(1/4)

学生

上記の計算は計算機じゃないとできないかな？

著者

実は次のように計算すると手計算でも解けるよ！

H(X,Y)=-(2/8)log₂(1/8)-(1/2)log₂(1/2)
-(1/4)log₂(1/4)

著者

ここでlogの公式を思い出してほしい!
log_ab/c=log_ab-log_ac

H(X,Y) =-(2/8)｛log₂1-log₂8}-(1/2)｛log₂1-log₂2}
-(1/4)｛log₂1-log₂4}

著者

ここでlog₂は次の値になるよ
log₂1＝0
log₂2＝1
log₂4＝2
log₂8＝3
H(X,Y) =-(2/8)×(0-3)-(1/2)×(0-1)
-(1/4)×(0-2)
　　　　=6/8+4/8+4/8
=1.75

条件付きエントロピー

コインを2回投げる。1回目には表が出る確率1/2、裏が出る確率1/2のコインを投げる。2回目にはほぼ必ず裏が出るコインを投げる。表を1、裏を0として各回の表裏を表す確率変数をX、Yとする。
条件付きエントロピーH(Y|X)を求めよ。

相互情報量

相互情報量とは…

相互情報量（mutual information）（＝伝達情報量（transinformation））：
　2つの確率変数の相互依存度の尺度を表す量。不確実性（情報エントロピー）の減少量とみなせる。

上式より、相互情報量はXとYについて対称。
以下の２つの理由により、相互情報量は、XとYの「依存度」を表す指標と考えることができる。

理由１：XとYが独立のとき、I（X；Y）＝０となる。そして、I（X；Y）の最小値は０である。つまりXとYがある意味で最も依存していないときに、相互情報量は最小となる。

理由２：Xの分布を固定してI（X；Y）の取りうる値について考える。このとき、Yの分布がXの分布と同じである場合に、I（X;Y）は最大値を達成する。つまりXとYが最も依存しているときに、相互情報量は最大となる。

I(X,Y)＝H(X)ｰH(X|Y)
　　　 ＝H(Y)ｰH(Y|X)
　　　 ＝H(X)+H(Y)ｰH(X,Y)

I(X,Y)：確率変数X,Yの相互情報量
H(X)：確率変数Xのエントロピー
H(Y)：確率変数Yのエントロピー
H(X,Y)：確率変数X,Yの結合エントロピー
H(X|Y)：Yが分かった後のXのエントロピー
H(Y|X)：Xが分かった後のYのエントロピー

　「XとYの依存度」は「Xのあいまいさ」と「Yを知ったもとでのXのあいまいさ」の差である。

コインを2回投げる。1回目には表が出る確率1/2、裏が出る確率1/2のコインを投げる。2回目にはほぼ必ず裏が出るコインを投げる。表を1、裏を0として各回の表裏を表す確率変数をX,Yとする。
相互情報量I(X;Y)を求めよ。

著者

上記の解答は別の解答もできるよ！
相互情報量は次の式でも表現できる。
I(X;Y)＝H(Y)ｰH(Y|X)
H(Y)=0 ← 2回目にほぼ必ず裏が出る
H(Y|X)=0 ← 条件付きエントロピーの例題解答参照
ゆえにI(X;Y)＝0ｰ0=0
つまり、「Xの目が表であるか裏であるかという情報」と「Yの出る目の情報」には関係性はない。なぜなら「2回目にほぼ必ず裏が出る」からだよ!

まとめ

自己情報量・シャノンエントロピーの定義
・自己情報量：ーlogP(E)
・シャノンエントロピー（＝平均情報量＝情報エントロピー）
　事象Xが起こる確率をP(X)とする。ある事象Xが起こったとわかった時に得られ「情報量の期待値」をシャノンエントロピー（＝平均情報量＝情報エントロピーという。
　H＝ーΣP(E)logP(E)エントロピー（シャノンエントロピー）
　H(x) =ｰΣ(P(x)log(P(x)))
結合エントロピー
H(X,Y)=ーΣΣP(X,Y)logP(X,Y)
H(X,Y)＝H(X)＋H(Y|X)
　　　＝H(Y)＋H(X|Y)
条件付きエントロピー
H(Y|X)＝H(X,Y)ーH(X)
H(X|Y)＝H(X,Y)ーH(Y)
KLダイバージェンス・交差エントロピー
・カルバック・ライブラーダイバージェンス（Kullback–Leibler divergence)二つの確率分布の擬距離を定量化する指標