[連載]フリーソフトによるデータ解析・マイニング第66回

統計的テキスト解析(11)~テキストにおける分割表の分析~

テキストから集計した生データのほとんどは度数データである。本稿では、度数データについて、カイ2乗統計量による分析に関して説明する。

1.適応度の検定

 確率分布に基づいてデータをモデリングする際に、情報量規準を用いてモデルを評価するする方法は、すでに説明した。一方、実測値とモデルによる推測値の間に有意な差があるか否かを、仮説検定のアプローチで分析を進めることも可能である。  モデルによる推測値を理論値と呼ぶことにする。説明の便利のため、実測値と理論値の一般形式を表1に示す。

表1 両氏の語の使用度数と検定統計量
  項目1 項目2 項目c 横合計
実測値 n1 n2 nc N
理論値(確率) p1 p2 pc 1
期待度数 Np1 Np2 Npc N

 実測値と理論値との乖離を測る統計量として、カイ2乗値がある。表1のカイ2乗値は次の式で定義されている。

カイ2乗値

 表1のデータについて求めたカイ2乗値は、自由度c-1のカイ2乗分布という確率分布に従うことが知られている。カイ2乗分布のグラフを図1に示す。


図1 カイ2乗分布

図1 カイ2乗分布

 簡単の例として、6面体のサイコロのゆがみについてテストを行うことを考えてみよう。ゆがみがない場合、各点が現れる確率は1/6である。120回のサイコロを転がすテストの結果が表2の1行の通りであるとする。

表2 サイコロのデータ
1 2 3 4 5 6 合計
実験結果 13 15 28 26 28 10 120
理論値 1/6 1/6 1/6 1/6 1/6 1/6 1
期待度数 20 20 20 20 20 20 120

 表2では、すべてp1が1/6であるので、理論度数(期待度数とも呼ぶ)は、

理論度数の算出

 であり、カイ2乗値は、

カイ2乗値の算出

である。このカイ2乗値は、自由度6-1=5のカイジ2乗分布に従う。
 適応度の検定では、実測度数と理論度数が同じであると仮説を立てている。
 自由度5の有意水準0.05(5%)のカイ2乗値は11.07である。求めたカイ2乗値16.9は11.07より大きい。このような場合、実測値と理論値が等しいという仮説が棄却される。つまり、表2のデータでは、有意水準5%でサイコロが正常であるといえない。
 ちなみに、自由度5、カイ2乗値16.9の上側の確率(p値)は0.0046である。この値は、16.9が棄却・採択される堺の確率である。
 このような検定を適合度の検定(gooodness of fit test)と呼ぶ。適応度検定法を用いて、構築したモデルと実測値との適合の状況を分析することができる。
 言語データにおける応用例として、本連載の第8回に用いた「戦争と平和」(Vojna i mir)の単語の長さの分布とポアソン分布を用いて推測した相対度数を表3に再掲する。ポアソン分布で推測した相対度数を理論値とし、実測度数との適合度の検定を行うことにする。
 実測値とポアソン分布による理論値のカイ2乗値は次のようにも求められ、自由度は6-1=5である。

実測値とポアソン分布による理論値のカイ2乗値

表3 音節を単位とした単語の長さ
音節xi 実測値 推測値
度数 相対度数 相対度数
1 466 0.2826 0.2682
2 541 0.3281 0.3530
3 391 0.2371 0.2322
4 172 0.1043 0.1019
5 64 0.0388 0.0335
6 15 0.0091 0.0088
合計 1649 1 1

 自由度5、有意水準5%のカイ2乗値は11.07である。データから求めたカイ2乗値5.8228は11.07より小さいので、ポアソン分布による推測値と実測値は、有意水準5%で、同じであると見なすことが可能である結論に達する。

2.分割表の検定

2.1 一般の分割表

 テキストにおける複数の項目の使用パターンについて比較分析が必要とする場合がある。例として、芥川龍之介の大正15年と昭和2年の作品における読点をどの文字の後に打っているかについて、6つの項目に分けて集計した分割表を表4に示す。
 このような分割表の行(あるいは列)のパターンが同じであるか否かを、カイ2乗分布に基づいて統計的に判断する方法を分割表の検定、あるいは独立性の検定と呼ぶ。
 分割表の検定は、データの行(あるいは列)のパターンが同じである期待度数との乖離の度合をはかり、その度合を用いて判断を下す。

表4 芥川龍之介の読点のデータ
  大正15年 昭和2年 横の合計
は、 41 28 123
が、 103 429 532
て、 26 6 32
ら、 107 303 410
に、 30 61 91
その他 290 803 1093
縦の合計 597 1684 2281

 データのパターンが同じである期待度数は、得られた分割表の横の合計、縦の合計、総度数を用いて次のように求める。

期待度数

 例えば、大正15年の「は、」の度数41に対応する期待度数は123×597/2281≒32である。このように求めた期待度数を表5に示す。
 期待度数は、行単位で割合を求めると、全ての行のパターンが同じであり、列を単位に割合を求めると、全ての列のパターンが同じである特徴を持っている。

表5 表4の期待度数
  大正15年 昭和2年 横の合計
は、 32.2 90.8 123
が、 139.2 393.8 532
て、 8.4 23.6 32
ら、 107.3 302.7 410
に、 23.8 67.2 91
その他 286.1 806.9 1093
縦の合計 597 1684 2281

 分割表におけるij列の度数をnij,対応する期待度数をEijにすると、カイ2乗値は次の式で求める。

カイ2乗値

 このカイ2乗値は、自由度(r-1)(c-1)のカイ2乗分布に従うということが知られている。
 度数データの行(あるいは列)のパターンが同じであるかどうかに関する仮説検定は、カイ2乗値を用いることが可能である。
 表2のカイ2乗値は、

表2のカイ2乗値の算出

である。得られたカイ2乗値は、自由度 (6-1)(2-1)=5のカイ自乗分布に従う。
 分割表の検定では、行・列のパターンが同じでると仮説を立てている。
 有意水準を0.05とすると、自由度5の上側の確率0.05に対応する横軸の座標値は11.071である。得られたカイ2乗値はこの座標値よりはるかに大きいため、行(あるいは列)のパターンに差がないという仮説が棄却される。つまり、大正15年と昭和2年の読点を打つパターンが同じであるといえない。
 仮説の検定は、得られたカイ2乗値に対応する上側の確率と有意水準を比べて判断してもよい。上側確率が有意水準より小さければ、仮説は棄却される。

2.2 2×2の分割表とイェーツ補正

 カイ2乗値を用いて分割表を検定するときには、前節の式を補正する必要がある。
 2×2の分割表の一般形式を表6に示す。

表6 2×2の分割表
  b1 b2
a1 n11 n12 n1+
a2 n21 n22 n2+
n+1 n+2 n++

 2×2の分割表のピアソンカイ2乗値は

ピアソンカイ2乗値

で計算されるが、イェーツ(Yates)は、よりカイ2乗分布に近似するように、次のように補正を施して用いる方法を提唱した。

カイ2乗分布に近似するように補正を施して用いる方法

2.3 フィッシャーの正確検定

 カイ2乗値が、カイ2乗分布に従うことは、各セルのカイ2乗値の平方根が標準正規分布に従うと仮定している。したがって、セルの期待度数の値が小さいと近似の度合がよくない。
 一般的に、分割表の期待度数が5以下のセルが、全セルの25%以上であるときには、カイ2乗検定は不適切であると指摘されている。
 フィッシャー(Fisher)は、超幾何分布を用いて、2×2の分割表の正確検定の統計量を次のような式で導出した。

2×2の分割表の正確検定の統計量

 この確率を用いた検定をフィッシャーの正確検定(Fisher's exact test)と呼ぶ。フィッシャーの正確検定は、一般の分割表にも適応できる。
 Rにはフィッシャーの正確検定値を求める関数fisher.testがある。

3.カイ2乗値を用いた特徴語の抽出

 表4の両群のテキストから抽出したデータセットの中に、どの項目に最も差があるかについて分析を行うとき、割合の検定統計量の 値、あるいはそれに対応する 値を用いて分析することが可能であることはすでに説明した。このような分析は、カイ2乗値を用いることも可能である。
 表4の中の「は、」のカイ2乗値は、表7のように2×2の分割表に整理して求める。

表7 「は、」と「その他」の分割表
  大正15年 昭和2年 横の合計
は、 41 82 123
その他 556 1602 2158
縦の合計 597 1684 2281

 分割表4について、イェーツ補正を行ったカイ2乗値は3.0694であり、これに対応するp値は0.0798である。このように、表4のすべての項目について、求めたカイ2乗値とそれに対応する上側の確率値を小数点以下3桁まで丸めたものを表8に示す。

表8 項目ごとのカイ値とp値
  大正15年 昭和2年 カイ値 p値
は、 41 82 3.069 0.080
か、 103 429 16.205 0.000
て、 26 6 48.102 0.000
ら、 107 303 0.001 0.981
に、 30 61 1.913 0.169
その他 290 803 0.107 0.743
縦の合計 597 1684 2281

 カイ値が最も大きい(p値が最も小さい)項目は「て、」である。これは、「て、」の項目に両テキストの差が最も大きいことを意味する。大正15年には、昭和2年より「て」の後に読点を多く打ったことになる。
 以上は2つのグループのテキストについて分析を行っているが、2つ以上のグループ(あるいはテキスト)にも同じ方法を用いて、テキストにおける特徴語を検出することができる。
 例として、安倍元総理と福田前総理、麻生総理の3つの所信表明演説文を形態素解析し、演説文に用いた語の特徴を分析してみよう。ここでは、テキストに用いられている名詞のみについて分析することにする。
 まず、3つのテキストに用いられた名詞を総度数が高い順に並べた度数データを表9に示す。

表9 3つのテキストに用いられた名詞
  安部 福田 麻生
こと 27 27 23
国民 15 16 22
ため 26 13 13
よう 13 21 6
29 4 4
日本 23 5 9
もの 3 10 16
我が国 11 9 6
わたし 0 0 24
地方 12 10 1
合計 1450 1116 964

 カイ2乗値を用いて、テキストの特徴を表すと思われる語を抽出することも可能である。しかし、語によっては、テキストの中では全く使用されていない場合もあるので、通常のカイ2乗値求める式を用いると正しい情報が得られない恐れがある。このような場合は、フィッシャーの正確確率を求めて用いることをすすめる。
 表9のデータについて、フィッシャーの正確確率を求め、確率値が小さいものから昇順に並べた結果を表10に示す。

表10 3つのテキストの名詞のp値
  安部 福田 麻生 Fisher.p
わたし 0 0 24 2.3×10-14
民主党 0 0 12 1.6×10-7
29 4 4 2.7×10-5
もの 3 10 16 0.00032
不安 0 4 9 0.00034
立場 0 8 1 0.00047
行政 0 9 4 0.00082
安心 2 12 2 0.00117
財政再建 1 0 6 0.00521
将来 2 8 0 0.00264
13 8 0 0.00351
0 1 5 0.00426
国民生活 0 5 0 0.00465

 表10では、3つの所信表明演説文の中で、最も特徴がある語は「わたし」であり、安倍元総理、福田前総理は用いていないが、麻生総理は24回用いられている。
 麻生総理の所信表明演説の後、評論家たちはテレビや新聞などで「わたし、わたくし」に関して、多くの評論が行われたが、一見して間違っていはいない。
 しかし、「私」に関しては、安倍元総理は13回、福田前総理は8回使用している。そこで、「わたし」「わたくし」「私」を一つの項目にまとめて、フィッシャーの正確確率を求め、その結果を表11に示す。
 表11から分かるように、「私、わたし、わたくし」の 値は、5番にランクインされている。「わたし」という語を麻生総理が相対的に多く使用されているのは否定しないが、「民主党」ほど麻生総理の所信表明演説文の特徴語にはならない。
 このようにテキストマイニングを行うときには、同義語の処理は非常に重要である。

表11 「私、わたし、わたくし」p値と順位
  安部 福田 麻生 Fisher.p
民主党 0 0 12 1.6×10-7
29 4 4 2.7×10-5
もの 3 10 16 0.00032
不安 0 4 9 0.00034
私、わたし、わたくし 13 8 25 0.00045
立場 0 8 1 0.00048
行政 0 9 4 0.00082
安心 2 12 2 0.00117

4.尤度比統計量とその他

 分割表のカイ2乗統値の近似値として尤度比統計量(likelihood ratio statistics)

尤度比統計量(likelihood ratio statistics)

がある。分割表の独立検定には、カイ2乗統計量が多く用いられているが、モデルの比較や選択には、尤度比統計量が多く用いられている。分割表において、すでに説明したモデル評価の情報量基準AICの主部は、分割表においては上記の尤度比統計量である。
 分割表に関しては、検定を行う以外、相関係数のような関連の度合を示す量で分析する場合もある。
 分割表の表側と表図の項目の関連の度合を、カイ2乗値を用いた指標として、ファイ連関係数φ、ピアソンの連関係数C、グラメール(Gramer)の連関係数Vがある。これらの連関係数は次のように定義されている。式の中のkは行と列の数の中の少ない方の数を取る。

ファイ連関係数φ、ピアソンの連関係数C、グラメール(Gramer)の連関係数V

 これらの値が大きいほど、分割表の表側と表頭の関連性が強いと判断する。
 カイ2乗値を用いて、適応検定や分割表の検定を行う際に注意しなければならないのは、結果が総度数に依存することである。総度数が大きくなるほど、棄却されやすい。総度数を50以上にするべきであることは言われているが、その上限に関する目安がないのが現状である。