[連載]フリーソフトによるデータ解析・マイニング第65回

統計的テキスト解析(10)~テキスト解析と推測統計~

本稿では、標本データを用いて母集団の性質を議論する際に欠かせない基礎を簡潔に説明しながら、区間推定と仮説検定の方法を用いたテキストデータの分析について、具体例を用いて解説する。

1.推定

1.1 母集団と標本

 調査対象に対して漏れなく行う調査を全数調査といい、調査対象の集団から一部を抽出して行う調査を標本調査という。調査対象全体を母集団、全体から一部を取り出した部分を標本、あるいはサンプルと呼ぶ。また、取り出した個数を標本の大きさ、あるいは標本サイズと呼ぶ。
 調査分析に用いる標本は、母集団の性質をなるべく忠実に反映するように抽出することが必要である。標本抽出を行う際、母集団を構成する要素に偏りがないように、均一の確率で抽出する方法を、無作為抽出法と呼ぶ。
 標本調査では、しばしば標本データの統計量(比率、平均、分散など)を用いて母数(母集団の比率、平均、分散など)を推測する。母集団の比率、平均、分散などを母比率、母平均、母分散などと呼ぶ。標本データの統計量を用いた母数の推定は確率分布に基づいて行う。

1.2 推定とは

 標本データの統計量を用いて、その標本が属する母集団の母数を推測することを推定という。推定には点推定と区間推定がある。
 点推定とは、標本の統計量を母数と見なす推定方法である。これは、標本サイズが十分大きい場合、標本分布がその母集団の分布に近似するという考えに基づいている。しかし、標本サイズが十分大きくない場合、同一の母集団から抽出した異なる標本の統計量の間には、信じ難いずれが生じる場合もある。
 区間推定は、標本調査を繰り返したとき、得られた値の(1-α)100%が収められる範囲を推定することである。αを有意水準と呼び、0.1,0.05,0.01が多く用いられている。
 区間推定は、比率、平均、分散などの統計量について推定する。区間推定は、計算した統計量が何らかの確率分布に従うと仮定して推定する方法、シミュレーションにより推定する方法などに分けられる。

1.3 平均の区間推定

1.3.1 大標本の場合

 テキストにおける具体的なデータを用いて説明するため、文章中に打たれた読点について考えよう。日本語の文章における読点の打ち方は、人によって異なる。頻繁に打つ人もいれば(あるいは場合もあれば)、まれにしか打たない人(あるいは場合もある)もいる。
 芥川龍之介の30編の作品について、1文当たりに読点がどれぐらい使用されているかを調べた30個のデータを次に示す(読点の数/文の数)。

1.356 0.694 0.897 0.381 1.222 1.734 2.308 0.301 0.604 1.088 2.385 0.641 1.068 3.161 1.032 2.736 0.532 2.152 1.922 2.482 0.513 1.371 1.745 2.607 1.719 0.642 1.290 2.700 0.814 1.927

 上記の30個のデータの平均は平均=1.467、標準偏差はs=0.817である。
 芥川龍之介の他の30編の作品について調べると、その平均、標準偏差は上記の値とは異なるであろう。つまり、標本調査の結果は標本によってゆれる。
 標本調査を行う目的は、標本データから母集団の性質を説明することである。したがって、ゆれる調査結果を用いて、どのように説明すればよいかが問題となる。まず、平均について考えよう。統計科学では、平均は次の性質を持っていることが知られている。

 平均μ、標準偏差σの母集団から無作為に抽出した大きさnの標本平均平均は、nが無限に大きくなるとき、平均μ、標準偏差標準偏差の正規分布に近づく。
 標本サイズが無限というのは現実的ではないが、標本サイズが十分に大きければ、上記の性質を用いることが可能である。一般的には、nが25以上であれば、大きいといわれている。上記の標本平均を標準化

標本平均を標準化

した値は、標準正規分布N(0,1)に従う。標準正規分布においては、区間[-1.96,1.96]に含まれる確率は0.95である。
 この性質を用いて、次のように標本平均を標準化した式を用いると、標本平均を用いて母平均がどのような範囲内の値になるかを推定することができる

推定

 つまり、平均μが区間区間前半区間後半に含まれる確率は0.95である。ここ区間を母平均の95%の信頼区間と呼ぶ。1.96の右の部分の確率 を上側確率、-1.96の左の部分の確率 を下側確率と呼ぶ。
 現実の問題としては、母集団の標準偏差σが未知である場合がほとんどである。標本サイズが大きい場合は、標本の標準偏差sを用いて、σを近似することも可能である。このような、理論に基づいた、前述の芥川龍之介の作品の1文当たりの読点の数に関する母平均の95%の信頼区間は、

母平均の95%の信頼区間

である。これを整理すると1.175≦μ≦1.759になる。これは、同じ標本調査を100回繰り返すと、おおよそ95回の平均が、区間[1.175,1.759]の中の値をとることを意味する。
 標準正規分布において、0を中心とした90%をカバーする範囲は、おおよそ-1.65~1.65である。したがって、芥川龍之介の1文当たりの読点の数のデータを用いた母平均の90%の信頼区間は、

母平均の90%の信頼区間

である。
 このように理論的に求めた信頼区間を実証するため、芥川龍之介の304編の作品から無作為に30編を抽出し、1文当たりの読点の数の平均値を求める操作を1000回繰り返した結果のヒストグラムを図1に示す。
 図1からわかるように、標本平均値が正規分布の形になっていることが確認できる。また、ヒストグラムのほとんどが、求めた信頼区間内にあることが確認できる。


図1 1000個の平均値のヒストグラム

図1 1000個の平均値のヒストグラム

1.3.2 小標本の場合

 標本サイズが小さく、母集団がどのような分布であるかわからない場合は、標本平均は、近似的に自由度n-1のスチュデンドt分布に従うことが知られている。スチュデンドt分布は正規分布に似ているが自由度に依存する。自由度が小さい場合は、分布の両すそが正規分布より広がっているのが特徴である(図2)。


図2 正規分布とt分布

図2 正規分布とt分布

 自由度30のt分布の区間[-2,2]の中に含まれる確率は約0.95になる。これは正規分布の[-1.96,1.96]と大きな差がない。
 t分布を用いた(1-α)100%の信頼区間は次の式で求める。ただし、kは自由度n-1のt分布のα/2の下・上側確率に対応する横軸の点の絶対値t(α/2,n-1)である。

t分布を用いた(1-α)100%の信頼区間

 t(α/2,n-1)はt分布表を調べるか、統計ソフトを用いて求める。ちなみにRでは、自由度30、α=0.05である下・上側確率に対応する横軸の点は関数qtを次のように用いて求める。

> qt(0.025, 30) #結果は-2.042272
> qt(0.975, 30) #結果は2.042272

 つまり、上記の信頼区間を示す式の中の は2.042である。

2.仮説検定

 異なる標本データが同一の母集団に属しているかどうか、あるいはデータのパターンが同じであるといえるかどうかについて、仮説を立て、その仮説を統計的に立証する方法を仮説検定という。
 確率分布に基づいた統計的仮説検定は、一般的には次のステップをとる。
(1)仮説(帰無仮説)およびそれに対立する仮説をセットとして立てる。
(2)検定すべき統計(比率、平均、分散、相関など)に対応する検定統計量を求める。
(3)検定統計量が従う確率分布の上で、確率の度合を調べて判断を下す。
 統計的仮説検定では、仮説に対して明確に判断(正しい、正しくない)を下すため、判断基準値として有意水準αを用いる。有意水準αは0.1、0.05、0.01などが多く用いられている。

2.1 母平均の検定

 芥川龍之介の大正15年(1926年)までの作品における1文当たりの読点の数の平均値は1.499、標準偏差1.057であるとする。芥川龍之介が自殺した昭和2年(1927)の32編の作品における1文当たりの読点の数のデータを次に示す。

0.653 0.694 0.800 0.513 0.500 0.821 0.418 1.118 1.129 0.778 0.470 0.301 0.612 0.642 0.444 0.826 0.628 0.546 0.412 0.500 0.470 0.712 0.667 0.381 0.524 0.694 0.577 0.635 0.500 0.333 0.282 0.337

 これらの平均は0.591、標準偏差は0.206である。この平均値は、明らかに大正15年以前の作品における読点の数より少ない。これは、標本統計の誤差によるものか、それとも読点を打つ頻度が明らかに変化したと統計的に判断すべきであろうか。
 このような問題は、統計的仮説検定の方法を用いて分析することができる。
 昭和2年の32編の作品における平均が、大正15年以前のすべての作品の母平均(μA)と同じであるという仮説H0を立て、その対立仮説H1を設ける。

仮説

 区間推定を行う際に用いた標準化式zに、既知のデータを代入すると、次のような値が得られる。

zの値

 この統計量が、大標本の母平均の検定統計量である。このz値は標準正規分布に従う。有意水準をα=0.05とすると、標準正規分布の下側の確率α/2=0.025に対応する横軸の値は-1.96である。仮説検定統計量z値が、この基準値より小さいとき(あるいは1.96より大きいとき)、有意水準α=0.05で仮説が棄却されると判断する。したがって、昭和2年の作品における読点の数は、それ以前の作品における読点の数より明らかに少ないと統計的に判断する。

2.2 平均の差の検定

 仮説検定は、データの既知の条件によって多くのタイプが提案されている。
 ここでは、芥川龍之介の大正15年の作品と昭和2年の作品における1文当たりの読点の数を比較してみよう。大正15年の25編の作品における1文当たりの読点の数を次に示す。

0.818 2.160 1.074 0.606 1.571 1.068 3.364 0.534 0.606 0.882 1.032 0.789 0.450 1.200 0.708 0.641 0.821 0.538 0.459 0.624 0.185 1.077 0.604 0.783 0.172

 これらの平均と標準偏差は、それぞれ0.911, 0.661である。大正15年と昭和2年の2つの標本の平均が同じ母集団に属するかを検定する問題を平均差の検定と呼ぶ。
 大正15年の母平均をμA、母分散をσ2A、昭和2年の母平均をμB、母分散をσ2Bで表すと、平均差の帰無仮説と対立仮説を次のように立てることができる。

平均差の帰無仮説と対立仮説

 平均差の仮説検定の統計量は、大標本の場合は次の式を用いる。

大標本の場合の平均差の仮説検定の統計量

 式の中の平均xA,xBはそれぞれの標本平均であり、nA,nBはそれぞれの標本サイズであり、σABは大標本の場合は次のように標本の分散を用いて近似することが可能である。

σABの値

 この値を用いたzは2.329になる。

zの算出

 2.329>1.96であるため、仮説が棄却される。つまり、大正15年の作品と昭和2年の作品における1文当たりの読点の数は、有意水準0.05%で差があると統計的に判断する。
 大正13年~15年の間の作品について、同じ方法で分析を行ったが有意の差が見られない。このような文体の変化が自殺の心理と関係しているのであろうか。
 以上では、大標本(25以上)であったため正規分布を用いているが、母集団の分布が不明である小標本の場合は、t分布を用いるべきである。母分散が未知である両母平均の差のt検定統計量

母分散が未知である両母平均の差のt検定統計量

は、自由度νのt分布に従う。自由度νは、標本分散が等しい場合はν=nA+nB-2であり、標本分散が等しくない場合は

標本分散が等しくない場合の自由度ν

に近い整数である。sA,sBは、両標本の標準偏差である。
 新たな小標本の例題を紹介する誌面がないので、大正15年と昭和2年のデータを用いて計算の例を示す。

計算の例

求めた値27.66は、整数28に近似するので、28を自由度とする。t(0.975,28)は、2.048である。平均の差のt検定統計量は、標準正規分布の場合と同じく2.329である。2.329は2.048より大きいため、両標本の母集団が同じである仮説が棄却される。Rにはこの検定統計量を計算する関数t.testがある。

2.3 割合の検定

 テキストのような質的データを統計的に分析する際には割合が多く用いられている。誌面の都合上、2つの割合の差の検定のみを紹介する。
 2つの割合の差の検定では、仮説

2つの割合の差の検定での仮説

を検定する。両標本A,Bにおける、ある項目の割合がそれぞれp^A,p^Bであり、標本サイズnA,nBが大きいとき、検定統計量

検定統計量

 は標準正規分布に従うことが知られている。式の中のpは、両標本の割合を用いて、次のように求める。

式の中のp

 この検定統計量を用いて、両テキストの中に現れている、ある項目の割合に有意の差があるかどうかを検定することができる。
 例として、安倍元総理の所信表明演説文と福田前総理の所信表明演説文を用いることにする。それぞれの所信表明演説文に使用されている語の度数を表1の2、3列に示す。語の認定方法によって総語数が異なるが、ここでは総語数がそれぞれ4971、3865であるとする。

表1 両氏の語の使用度数と検定統計量
安部 福田 z値 p値
日本 28 5 3.526 0.0002
立場 0 8 3.307 0.0003
安心 2 12 3.297 0.0005
生活 1 10 3.269 0.0005
問題 6 17 3.074 0.0011
行政 4 14 3.049 0.0011
環境 2 10 2.871 0.0020
共生 0 4 2.317 0.0102
不安 0 4 2.317 0.0102
美しい 9 1 2.226 0.0130
合計 4971 3865    

 語「日本」を例としてz値を求める過程を次に示す。

z値を求める過程

 このz値に対応する上側確率は0.0002である。これをp値と呼ぶ。このように求めたz値とp値を表1の4、5列に示す。
 表1は、z値が大きいものから小さいものへと順に並べたものである。z値をzスコアとも呼ぶ。z値とp値のいずれかを、両テキストにおける差異が顕著である語を抽出する指標として用いることができる。表1の上位の語は、両所信表明演説文において有意の差がある語である。