[連載]フリーソフトによるデータ解析・マイニング第63回

統計的テキスト解析(8)~テキスト解析法の理論的基礎(2)~

1.確率

1.1 確率と基本性質

 確率の定義を説明するため、1個のサイコロを転がすことを考えよう。われわれは各面(点数が1,2,3,4,5,6)が現れる確率がそれぞれ1/6であるとしているが、6回転がしたとき、必ず各面が1回ずつ現れるかというと、必ずしもそうではない。
 しかし、サイコロを転がす実験を続けて行うほど各面が現れる回数がそれぞれ1/6に近づく(収束する)。この収束値を確率と言う。つまり、実験の回数を無限に増やしたときの収束値を確率という。しかし、実験を無限に続けることは現実的ではないため、回数が非常に大きいときにはその相対度数を確率の近似値として用いる。
 サイコロを転がすような実験を試行とも呼び、試行で起こりえる全ての結果の集合を標本空間と呼ぶ。サイコロの点1の面が現れること(今後事象と呼ぶ)を のように示すと、各点1,2,3,4,5,6が現れる事象を、それぞれ で表され、1個のサイコロを転がす試行のときの標本空間は次のように示す。
 Ω={A1,A2,A3,A4,A5,A6}
 N回の試行で事象Aiが起こる回数をxiで表わすとその相対度数は

相対度数

であり、試行の回数 が非常に大きいときの、この相対度数は確率の近似値である。

相対度数は確率の近似値

 Nが無限に大きいときの極限値は次のように表す。

極限値

 確率の性質を次に示す。標本の空間が有限の場合は下記の式の∞はNである。

確率の性質

 上記の式の中の記号∩は論理積を示す。例えば、1個のサイコロを転がす標本空間でのA2A4とは「点2の面が現れて、かつ点4の面が現れる」複合事象である。1つのサイコロを転がしたとき、このような複合事象が起こることはあり得ない。このあり得ない事象を空事象と呼びφで表す。
 記号∪は論理和の演算記号である。A2A4は「点2の面が現れるか、または点4の面が現れるか」のことを意味する。複数の事象の論理和、論理積は次のように表す。

複数の事象の論理和、論理積

 サイコロの、ある点の面が現れることを、ある文字、ある単語などが文章中に現れることに置き換えると、文字・単語の出現確率、同時出現確率なの問題として扱うことができる。

1.2 確率の乗法定理

 両事象A,Bが同一の確率空間の中で、同時に起こる確率(事象の積の確率)をP(AB)で示し、事象Bが起こった条件の下で事象Aが起こる確率を条件付確率と呼び、P(A|B)で示す。
 テキストの中で、ある文字・単語が現れて、その条件のもと何らかの文字・単語が現れる確率のことが条件付確率である。
 両事象が同時に起こる確率と条件付確率の間には次の式が成り立つ。

両事象が同時に起こる確率と条件付確率の間に成り立つ式

 この式は次のように表すこともできる。つまり、条件付確率は、事象の積の確率を用いて求めることが可能である。

条件付確率

 大量のテキストにおけるn-gramは同時出現確率(事象の積の確率)として見なすことが可能である。
 例文「きしゃのきしゃがきしゃできしゃする。」におけるn-gram(n=1,2)を集計した度数と相対度数を表1に示す。

表1 n-gram(n=1,2)を集計した度数と相対度数
Unigram & Bigram
文字列 度数 相対度数
4/td> 0.114
4 0.114
4 0.114
1 0.029
1 0.029
1 0.029
1 0.029
1 0.029
1 0.029
きし 4 0.114
しゃ 4 0.114
がき 1 0.114
する 1 0.114
でき 1 0.114
のき 1 0.114
ゃが 1 0.114
ゃす 1 0.114
ゃで 1 0.114
ゃの 1 0.114
る。 1 0.114
合計 35 1

 「ゃ」が現れた条件のもとで「す」が現れる確率は次のように求めることができる。

「ゃ」が現れた条件のもとで「す」が現れる確率

 複数の事象の間にお互いに影響しないとき、これらの事象は独立であるという。もし、任意の事象A,Bが独立であれば、次の式が成り立つ。その逆もいえる。

任意の事象<が独立であるとき

1.3 ベイズの定理

 P(A|B)は乗法定理により、次のように書き換えることができる。この式をベイズの定理(Bayes' rule)と呼ぶ。

ベイズの定理(Bayes' rule)

 ベイズの定理は、非常に重要な定理であり、広く応用されている。式の中のP(A)を事象Aの事前確率(prior probability)、P(A|B)を事後確率(posterior probablity)と呼ぶ。
 ベイズの定理は、結果Bがいくつかの要因によって生じる可能性があった場合、この結果Bが要因Aによって生じた確率を求める際用いる。
 例えば、上記の例文における文字「き」を見よう。文字「き」がどのような条件のもとで現れているかについては
 文頭の「き」、がき、でき、のき
4通りがある。いま、「き」文字が現れていることが分かったとする。この「き」が文字「の」が現れた条件のもとで「き」が現れる確率は、ベイズの定理で求めると次のとおりになる。 Ai用いて「き」の文字の前の条件(あるいは文字)を示し、A1={文頭},A2={が},A3={で},A4={の}文字「き」の事象をB={き}で示した、それぞれの確率は次のとおりである。

ベイズの定理(Bayes' rule)

 現れた文字「き」が、文字「の」の後である確率は、次のようにベイズの定理に基づいた求めることができる。

現れた文字「き」が、文字「の」の後である確率

 以上の例でも分かるように、分母P(B)は分母P(B)の置き換えで置き換えられる。そこで、ベイズの定理は、しばしば次の式で示す。

現れた文字「き」が、文字「の」の後である確率

2.確率分布

2.1 確率分布とは

 試行の標本空間の事象を変数としたときに、その変数を確率変数と呼ぶ。確率変数とその変数に対応する確率をセットして確率分布(probability distribution) という。1個のサイコロを転がしたとき、各面が現れる事象をそれぞれ数値1,2,3,4,5,6で表すと、その確率分布は表1のようなデータセットである。

表2 確率分布の例

 このような離散型分布における確率変数をX={x1,x2,…,xi,…}で表すと、確率分布は次のように表すことができる。

確率分布

2.2 確率変数の期待値と分散

確率変数の期待値
 確率分布における、確率変数 の平均値を、確率変数の期待値(Expectation)と呼び、E(X)で表し、次の式で定義されている。

確率変数の期待値

 表2の確率変数Xの期待値を求める例を次に示す。

表2の確率変数の期待値

期待値は、次の性質を持っている。

期待値の性質

 式の中のX,Yはお互いに独立である確率変数であり、a,bは定数である。

確率変数の分散
 確率変数Xのバラツキを示す分散は次のように定義されている。

分散

 表1の確率変数Xの分散を求める例を次に示す。

表1の確率変数の分散

 確率変数が連続の場合は、Σ記号を積分記号分散で置き換えて次のように表す。

置き換え

2.3 主な確率分布

二項分布  離散型確率分布として、最も広く使用されているのは二項分布(Binominal Distribution)である。例えば、男性と女性、賛成と反対、成功と失敗などのように何らかの試行の結果を2通りに分けて考える問題をモデル化したものである。2項分布は次の式で表す。

2項分布の式

 式の中のは試行の回数、nは確率変数、xは事象が起こる確率である。
 2項分布の期待値と分散を次に示す。

二項分布の期待値と分散

 文章における異なり語数の分布を分析する際に、確率分布を仮定する場合がある。

幾何分布
 独立な試行を繰り返すとき、x回失敗してx+1回目に成功した確率を次のように表した分布を幾何分布(Geometric Distribution)という。

幾何分布

 幾何分布の確率変数Xの期待値は、E(X)=(1-p)/p、分散Var(X)=(1-p)/p2である。
 エルダトン(Elderton 1949)は、Th.Grayの英文の手紙における単語を、音節を単位として調べ、単語の長さの頻度分布を幾何分布で当てはめる試みを行った。その集計データを表1に示す。

表2 Th. Grayの単語の長さの度数分布
音節xi 度数fi 相対度数pi
1 3987 0.7613
2 831 0.1587
3 281 0.0537
4 121 0.0231
5 15 0.0029
6 2 0.0004
合計 5237 1

 相対度数は、各項目の度数を総度数で割った値である(相対度数)。表1のデータを幾何分布で当てはめるとxi=1,2,…になるので、幾何分布の式を次のように書くことが可能である。

幾何分布

エルダトンは表1に示す経験分布(実測値)の平均値を

経験分布(実測値)の平均値

を求め、この平均値を用いた次の値を

理論分布

を理論分布のp,qとして用いた。音節1の相対度数は

音節1の相対度数

になり、これに対応する推測度数は

音節1の推測度数

となる。このように求めた推測値を表3に示す。ただし、推測度数については、ISO(国際標準化機構)方式の四捨五入法を用いて整数に丸めた。比較のために表2の実測度数も再掲する。

表3 Th. Grayの単語の長さの度数分布
音節xi 相対度数pi 度数NPi 実測度数fi
1 0.7415 3883 3987
2 0.1917 1004 831
3 0.0496 260 281
4 0.0128 67 121
5 0.0033 17 15
6 0.0009 5 2
合計 1 5237 5235

 このような実測値(経験分布)を何らかの確率分布(モデル)で当てはめることは、具体的なデータからより広く利用可能な一般化したモデルを見つけることを目的としている。この問題では、幾何分布は比較的にデータをよく表現しているが、単語の長さの度数分布がすべて幾何分布に従うことを意味するものではない。
 マキテ(Merkyt? 1972)は、二項分布と幾何分布を組み合わせた分布を用いて単語の長さの分布を当てはめ、二項分布のみを用いるより精度がよいことを示した。

ポアソン分布
 離散分布の中で、比較的に多く使用されている分布としてポアソン(Poisson)分布がある。ccは次の式で定義されている。

ポアソン分布

 式の中のλは、確率変数の平均と分散である。つまり、ポアソン分布は平均と分散が等しい分布である。式の中のeは特定の数値2.718282…(ネイピアの数)であり、対数の底をeにしたとき、自然対数と呼ぶ。
 二項分布の が大きいときには、ポアソン分布に近似(np=λ)していることが知られている。1回の試行で事象が起こる確率が小さいときには、ポアソン分布を用いて二項分布の確率を近似することができる。
 ポアソン分布を用いて単語の長さの分布をモデリングした例を次に示す。言語学に興味を持った元ロシアの軍医であったチェバノブ(chebanov 1947)は異なる三つのテキスト(Parzival, Heliand, Vojna I mir)の単語を、音節を単位として、長さごとの度数を集計し、ポアソン分布を用いて当てはめを試みた。紙面の都合上テキストVojna i mirのデータのみを表4に示す。

表4 Vojna i mirの単語の長さの分布
音節数xi 度数fi 相対度数pi
1 466 0.2826
2 541 0.3281
3 391 0.2371
4 172 0.1043
5 64 0.0388
6 15 0.0091
合計 1649 1

 幾何分布の場合と同じく、単語の長さがゼロであることは意味がないのでx=1からなるように変換して用いる。

x=1からなるように変換

 表4の平均は

表4の平均

である。ここではλ=1.315にする。このパラメータを用いたポアソン式を次に示す。

パラメータを用いたポアソン式

x=1のときの確率P1、度数NP1の算出を次に示す。

x=1のときの確率、度数の算出

 このように計算した結果を表5に示す。

表5 ポアソン分布による表4の推測値
音節数xi 度数NPi 相対度数Pi
1 442 0.2682
2 582 0.3530
3 383 0.2322
4 168 0.1019
5 55 0.0335
6 15 0.0088
合計 1645 1

 このような離散型確率分布を、テキストにおける単語の出現度数分布に当てはめる研究事例は少なくない。エフロンらは(Efron and Thisted 1976,Thisted and Efron 1987) ポアソン分布に基づいて、今までのシェークスピアの単語の分布を用いて、新たに発見された詩がシェークスピアによるものである可能性の一つの根拠を示した。
 上記の離散型分布意外に、多項分布、負の二項分布、ポアソン一様分布(Poisson-Uniform Distribution)などを用いた研究もある。これらに関して、より詳しく知りたい方には参考文献Grzybek(2006)を進める。

正規分布
 確率変数が連続である場合、確率P(aXb)は次のように定義される。

x=1のときの確率、度数の算出

 式の中のf(x)を確率密度関数(PDF; Probability Density Function)、あるいは略して密度関数と呼ぶ。
 連続型の確率分布として最も多く使用されているのは正規分布(Normal Distribution)である。
 正規分布の確率密度関数は次のように定義されている。

正規分布の確率密度関数

πは円周率、 μは平均、σは標準偏差である。正規分布は2つのパラメータ(μ,σ)を持っている。従って、通常はN(μ,σ2) で表記する。μ=0,σ=1である正規分布を標準正規分布と呼ぶ。幾つかの異なる平均と分散の密度関数の曲線を図1に示す。


図1 正規分布の密度関数の曲線

図1 正規分布の密度関数の曲線

 テキストにおける文が、何文字により構成されているかについて集計したデータの分布を文の長さの分布と呼ぶ。
 文の長さの分布がどのような分布に属するかに関しては1940年代前後から多く議論されている。安本美典氏は、森鴎外の文章を取り上げ、その文の長さの分布は対数正規分布に比較的によく当てはまることを示した(安本,1957)。

対数正規分布
 対数正規分布とは、正規分布の確率変数について対数を取った次の式で示す分布である。

対数正規分布

 平均は平均、分散は分散である。μ、σはそれぞれ正規分布の平均と分散である。
 対数正規分布は、一般的は左右非対称な分布型をしている。対数正規分布曲線のグラフを図2に示す。


図2 対数正規分布曲線

図2 対数正規分布曲線

 文の長さの例として、表5に夏目漱石の3つの作品における地の文のみの文の長さを5文字刻みで集計した相対頻度を示し、その折れ線グラフを図1に示す。折れ線グラフの形状が対数正規分布の形にしていることが分かる。

表6 夏目漱石の3つの作品の文の長さ
  虞美人草 草枕 吾輩は猫である
01~05 0.0094 0.0061 0.0035
06~10 0.1167 0.0858 0.0522
11~15 0.1996 0.1480 0.1260
16~20 0.1867 0.1367 0.1225
21~25 0.1409 0.1207 0.1153
26~30 0.0924 0.1066 0.1073
31~35 0.0682 0.0901 0.0859
36~40 0.0513 0.0613 0.0762
41~45 0.0318 0.0523 0.0588
46~50 0.0268 0.0471 0.0538
51~55 0.0193 0.0448 0.0382
56~60 0.0189 0.0250 0.0327
61~65 0.0114 0.0189 0.0296
66~70 0.0075 0.0141 0.0255
71~75 0.0053 0.0075 0.0150
76~80 0.0050 0.0066 0.0111
81~85 0.0022 0.0057 0.0105
86~90 0.0013 0.0052 0.0076
91~95 0.0011 0.0024 0.0055
96~100 0.0033 0.0053 0.0009
101~ 0.0033 0.0118 0.0175
合計 1 1 1

図3 夏目漱石の文の長さの折れ線

図3 夏目漱石の文の長さの折れ線

 佐々木は文の長さの分布を指数分布とガンマ分布への当てはめを試み、新井は芥川竜之介と太宰治の文の長さの分布について計量分析を行った(新井, 2001)。
 石田基広氏は、30数人の100以上文章における文の長さの分布について、ハイパーパスカル(HyperPascal)分布を用いてその適応性について試みを行い、比較的良い結果を得た(Ishida and Ishida)。

参考文献
安本 美典(1957): 文の長さの分布型について、計量国語学、No. 1, 20-25.
佐々木 和枝(1976): 文の長さの分布型, 計量国語学, No. 78, 13-22
新井 皓士(2001):文長分布の対数正規分布性に関する一考察ー芥川と太宰を事例として、一橋論叢、Vol.125, No.3, 205-223.
安本 美典(1960): 標本異なり語数の分布-計量語彙論のために-,計量国語学,No. 13, 38-50
Efron, B. and Thisted, R. (1976). Estimating the Number of Unseen Species: How many Words did Shakespeare Know? Biometrika, 63(3), 435-447.
Thisted, R. and Efron, B. (1987). did Shakespeare write a newly-discovered poem?. Biometrika, 74, 445-455.
Merkyt?, R. Ju. (1972): Zakon, opisyvaju??ij raspredelenislogov v slovach slovarej, in: Lietuvos matrmatikos rinkinys, 12/4; 125-131
Graybek, Peter(2006): Contributions to the Science of Text and Language, Springer(The Netherlands).
Motohiro Ishida and Kazue Ishida(2007): On distributions of sentence lengths in Japanese writing, Glottometrics 15, 28-44