[連載]フリーソフトによるデータ解析・マイニング第64回

統計的テキスト解析(9)〜テキストにおける情報量〜

1. 尤度・最尤推定

1.1 尤度

 標本データが、ある母集団から得られる確率を尤度(ゆうど,Likelihood)と呼ぶ。1枚のコインを100回投げた結果、{表}が48回現れたとする。もし、各面が現れる確率が1/2であることがわかっていれば、48/100≒0.5であるから、{表}が現れる尤度は1/2になる。しかし、ゆがみがあるコインの場合は、ゆがみに関する規則(あるいは関数)を考えることが必要である。ゆがみがあるコインの各面が現れる確率を左右する要因をθとすると、尤度はθの関数である。θをパラメータと呼ぶ。ポアソン分布の場合はλ、正規分布の場合はμ,ρがパラメータθである。
 確率は、母集団において事象が起こる率であり、尤度は、標本データと仮説のもとで得られた、事象が母集団で起こりそうな度合(尤もらしい度合=尤度)である。ここでの仮説は、データが従うと仮定したモデルである。
 データを統計的に分析する際は、しばしば標本データを用いてモデルを構築する。しかし、そのモデルは人為的であり、人によって、考えが異なり、提案されるモデルも異なる。したがって、人為的に作成した複数のモデルの候補の中で、どのモデルが真のモデルに最も近似するかを判断する必要がある。その際に、しばしば尤度が用いられている。尤度を求めるためには、尤度関数が必要となる。

1.2 尤度関数と最尤推定法

 確率変数確率変数Xとパラメータパラメータの関数パラメータの関数があるとする。パラメータθが定数であるとすればパラメータの関数は、確率変数のみに依存する関数確率変数のみに依存する関数である。また、標本データ を用いると、パラメータの関数はθを変数とする関数であり、その同時確率密度関数は次のように示される。

同時確率密度関数

 この関数を尤度関数と呼ぶ。尤度関数では、パラメータθを推測するのが1つの課題であり、尤度L(θ)を最大とするθ^を、θの推測値とする。その表記を次に示す。

θの推測値

 arg max L(θ)は,関数L(θ)を最大にするθが存在するときの値ことである。
 この方法を最尤法(method of maximum likelihood)、あるいは最尤推定(maximum likelihood estimation)法と呼ぶ。
 尤度関数からわかるように、尤度関数について対数をとると、掛け算を足し算に置き換えて計算することができる。そこで、実際の計算では次に示す対数尤度関数を用いる。

対数尤度関数

 一般的には、対数尤度関数の微分方程式を解くことで、最大値をとる値を求めることができる。その例として、二項分布の最尤推定値の導出過程を次に示す。二項分布の尤度関数は

二項分布の尤度関数

であり、対数尤度は、

対数尤度

である。変数をθとした上記の式の一階偏微分を0にすると

対数尤度の一階偏微分を0

となり、これの解はθである。つまり、二項分布の場合は、相対頻度が最尤推定量θ^である。したがって、事象が二項分布に従うときは、標本データの相対頻度を最尤推定値として用いる。 最尤推定量は、上記のように解析的に求められる場合もあるが、最適化により求める場合もある。尤度および最尤法は、データサイエンスの多くの領域で用いられている。

2.情報量

2.1 エントロピー

 記号列における平均統計量として,シャノン(Shannon)の情報量がある。確率変数X={x1,x2,…,xi,…,xn}におけるxiの確率をp(xi)で示すと、式

シャノン(Shannon)の情報量

により定義される量をシャノンの情報量、あるいはエントロピー(Entropy)と呼ぶ。単位はビット(bit)である。ここでp(xi)はp(xi)の総和は1を満たす。また、対数の底には2が多く用いられている。H(X)は次の性質を持っている。

H(X)の性質

 xiがテキストにおける記号であるとすると、H(X)は1記号当たりのバラツキに関する情報量である。
 英語のアルファベット26文字が、均一に1/26の確率で使用されていると仮定した場合の、シャノンの情報量はH=4.7である。シャノンが1950年代初めの頃に行った英文字に関する統計分析では、1文字当たりのエントロピーは約4.14ビットである。エントロピーが小さいほどデータのバラツキが大きい。
 中国語の漢字をアルファベットで表記する方法をピンイン(PinYin)と呼ぶ。ピンインには、26種類のアルファベットが用いられている。そのエントロピーは約4.11であり、英語より若干低い。これは中国語のアルファベットの使用は、英語より偏っていることを意味する。次に述べる結合エントロピーを比較するとその差はもっと明らかである。シャノンの情報量は、異なる言語、テキストの比較分析に多く用いられている。

2.2 結合エントロピー

 説明の便利のため、2つの確率変数をX,Yで表し、xi,ykが同時に現れる確率がp(xi,yk)であるとき、

結合エントロピー(Joint Entropy)

を結合エントロピー(Joint Entropy)と呼ぶ。結合エントロピーは、次の性質を持っている。

結合エントロピー(Joint Entropy)の性質

 文字、単語などを要素としたn-gram(n>1)の統計情報を比較分析するときに、結合エントロピーなどが用いられている。

2.3 条件付きエントロピー

 条件付き確率に対応するエントロピーを条件付エントロピー(Conditional Entropy)と呼び、次の式で定義される。

条件付エントロピー(Conditional Entropy)

 条件付きエントロピーは次の性質を持っている。

条件付エントロピー(Conditional Entropy)の性質

2.4 相対エントロピー

 2つの確率分布間の距離を表す尺度として相対エントロピーがある。確率変数Xの2つの確率分布p,qが与えられたとき

相対エントロピー

 を相対エントロピー、あるいはカルバック・ライブラー・ダイバージェンス(KLD: Kullback-Leibler Divergence)、あるいはカルバック・ライブラー・情報量と呼ぶ。式では対数演算が行われているので、対数演算の条件のような条件が必要である。KLDは次の性質を持っている。

KLDの性質

また、KLDは一般的には非対称である。

KLDは一般的に非対称

KLDは、ユークリッド距離のような距離で測定できない情報を得ることができる。例えば、表2のようなデータがあるとする。

表1 3つの確率分布
  x1 x2 合計
p 0.6 0.4 1
q 0.5 0.5 1
z 0.7 0.3 1

 通常広く用いられているユークリッド距離(Euclidian Distance)は、次の式で定義されている。

ユークリッド距離(Euclidian Distance)

上記のpqとの距離、pzとの距離を次に示とこれらのユークリッド距離は同じである。

ユークリッド距離は同じ

しかし、KLDで計算すると結果は異なる。

KLDで計算すると結果は異なる

 式の中のlnは自然対数logeである。KLDは非対称であるため、次のように拡張された距離(Information Radius)が提案されている。

拡張された距離(Information Radius)

KLDの場合と同じく対数演算があるので0log(0)=0である条件が必要である。IRは次の性質を持っている。

IRの性質

 表1のデータを用いたIR(p,z)の計算を次に示す。

IRの計算

IRは確率分布間の距離の測度として有効である。

2.5 相互情報量

 2つの確率変数X,Yの間の相互情報量(Mutual Information)は、次の式で定義されている。

相互情報量(Mutual Information)の定義

 相互情報量は、対称性を持っている。

相互情報量は対称性を持つ

 相互情報量とエントロピーとの関係を次に示す。

相互情報量とエントロピーとの関係

 2つの確率点の相互情報量は次の式で定義される。

2つの確率点の相互情報量の定義

 これは、テキストにおける2つの要素の共起の重要度の計算に多く用いられている。例えば、総単語1万語のテキストにおける単語の使用頻度と単語間の共起頻度が表2のとおりであるとする。

表2 3つの確率分布
語1 度数 語2 度数 共起度数 I(xi,yk)
自然 120 言語 24 20 6.118
環境 80 共存 28 20 6.480
情報 60 知識 75 20 5.474
生活 55 環境 80 20 5.506
水準 20 低下 42 20 7.895

 表2の語1と語2の共起度数は、すべて同じである。このようなデータにおける、共起の重要度の1つの指標は、2点の相互情報量である。「自然」と「言語」の相互情報量は次のように求める。

「自然」と「言語」の相互情報量の求め方

 相互情報量の値が最も高いのは、「水準」と「低下」である。相互情報量の値が大きいほど、相対的に多く組み合わせて使用されていることを意味する。

3.情報量規準とモデルの評価

3.1 情報量規準

 作成したモデルの最尤推定量を求め、その量に基づいて作成したモデルを評価するための規準となる量を、一般的に情報量規準(Information Criterion)と呼ぶ。情報量規準としては、元統計数理研究所所長赤池弘次氏が1970年代初めの頃に提案したAIC(Akaike's Information Criterion)をは始め、ベイズアプローチによる情報量規準BIC(Bayesian Information Criterion)、ブートストラップ法よる情報量規準EIC(Extended Information Criterion)、竹内啓氏により提案されたTIC(Takeuchi's Information Criterion)、小西貞則および北川源四郎氏が導出した一般化情報量規準GIC(Generalized Information Criterion)などがある。
 現時点で、最も広く知られているのはAICである。AICは次の式のように2つの部分によって構成されている。

AIC

 前の項目(-2L)がAICの主部であり、その中のLはモデルの対数尤度である。後項(2K)は、推測のバイアスを調整する項目であり、その中のKは構築したモデルの中の自由パラメータの数である。
 通常、情報量規準は、値が小さい方が真のモデルに近いと判断する。BIC、EIC、TIC、GICは、いずれもAICのように、2つの項目に分かれている。いずれの主部もAICの主部に相当するものであり、後ろの項はバイアスなどの調整を行う項目である。
 確率変数X={x1,x2,…,xi,…,xn}におけるxiに対応する確率p(xi)=piの対数尤度は

対数尤度

であり、平均対数尤度は

平均対数尤度

である。piに対応する実際のデータの度数をmiで表すと、多項分布モデルの対数尤度は次の式で定義される。

多項分布モデルの対数尤度

3.2 モデルの評価の例

 情報量規準を用いたモデル評価の例として、三島由紀夫の4作品(遠乗会、卵、詩を書く少年、海と夕焼)の文節の長さの分布のモデルの例を示す。文を文節ごとに切り分け、各文節が何文字により構成されているかを調べたデータを表3に実測値に示す。Fは度数、pは相対度数である。
 このデータを何らかの確率分布でモデリングすることを考えよう。さまざまなモデルが考えられるが、ここではポアソン分布(M1)と対数正規分布(M2)を用いてモデリングすることにし、求めた結果を表3の右側の2列に示す。表3の中の中央の列のF^M1はモデルM1の推測度数、p^M1はモデル の推測の相対度数である。
 例えば、ポアソン分布

ポアソン分布

の平均は

ポアソン分布の平均

である。ここではλ=2.473とする。このデータを用いたポアソン式

ポアソン式

で計算した値が推測相対頻度p^M1であり、相対頻度に総度数9200を乗じて得られた値が推測度数F^M1である。
 対数線形モデルの平均と分散は

対数線形モデルの平均と分散

である。このパラメータを用いて次の式で計算された推測相対頻度p^M2、推測度数F^M2は表3の右側のとおりである。

f(x)
表3 実測値と2つのモデルによる推測値
文字数 実測値 ポアソンモデル 対数正規モデル
  F p F^M1 p^M1 p^M2 F^M2
1 53 0.006 776 0.084 47 0.005
2 1988 0.216 1919 0.209 2043 0.222
3 3538 0.385 2372 0.258 3317 0.361
4 1927 0.210 1956 0.213 2163 0.235
5 999 0.109 1209 0.131 999 0.109
6 409 0.045 598 0.065 399 0.043
7 189 0.021 247 0.027 150 0.016
8 53 0.006 87 0.009 56 0.006
9 34 0.004 27 0.003 21 0.002
10〜 10 0.001 7 0.001 8 0.001

 両モデルの対数尤度は、次のように求められる。ただし、対数は自然対数を用いた。

両モデルの対数尤度

 両モデルのAICは、上記の対数尤度を用いて次のように求められる。自由パラメータは、ポアソン分布は1つ(λ)であり、対数正規分布は2つ(μ,σ)である。

両モデルのAIC

AIC(M2)<AIC(M1)であるので、対数正規分布の方がポアソン分布より真の分布に近似していると判断する。 実測値とモデルによる推測値の折れ線グラフを図1に示す。

図1 実測値と推測値の折れ線

図1 実測値と推測値の折れ線

 表3の推測値、対数尤度、AICを求めるRコマンドは誌面の都合により省略し、筆者のホームページに掲載する。