[連載]フリーソフトによるデータ解析・マイニング第62回

統計的テキスト解析(7)〜テキストの記述統計〜

 テキストから集計したデータを統計分析する際には、しばしばデータを要約する。データを要約する統計量としては、データの中心を表す値(平均、中央値、最頻値)、データの散らばり(バラツキ)の度合を示す値(分散、標準偏差、範囲、分位数)などがある。

1. 中心値

(1) 平均

 データの合計をデータの個数で割った値を算術平均(略して平均)と呼ぶ。テキストの中における何らかの9つの要素が使用された度数が表1のとおりであるとする。

表1 データの例
要素 A B C D E F G H I
度数 4 7 5 2 4 2 1 1 1

 通常、これらの算術の平均は、次のように求める。

(4+7+5+2+4+2+1+1+1)/9=3

 項目iが対応する値(度数、何らかの量)をxiで示すと、一般的に算術平均はエクスバー(エクスバーと呼ぶ)で示す。

算術の平均

 平均はデータの中心を表す1つの統計量である。中心を表す統計量としては、平均以外に中央値、最頻値がある。

(2) 中央値

 中央値は、データを小さいものから大きい順に並べたとき、真ん中に位置する値のことである。データの個数が奇数である場合は、中央に位置する値は1つなので、その値が中央値であるが、データの個数が偶数である場合は、中央に位置する隣接する2つの値を足して2で割った値を中央値とする。表1のデータの中央値は2である(表2を参照)。

(3) 最頻値

 最頻値は、データの中で最も頻繁に現れている値である。表1のデータの最頻値は1である。
 アメリカの物理学者メンデンホール(T. C. Mendenhall)は1890年頃、イギリスの文豪シェイクスピア(William Shakespeare)の研究に挑んだ。メンデンホールは、シェイクスピアと同時期の政治家・哲学者・随筆家であるベーコン(Francis Bacon)の文章に用いられている単語について比較分析を行った。両者のそれぞれ40万語、20万語の単語が何文字で構成されているかという単語の長さを集計し、その最頻値などを用いて分析を行った。
 シェイクスピアは、4文字の単語を最も多く使用しているのに対し、ベーコンは3文字の単語を最も多く使用していることを根拠に、ベーコンがシェイクスピアの名前で圧政に抗議するため一連の風刺劇を書いたという説を否定した。
 しかしながら、1975年になって、このメンデンホールの結論を再考させる研究が、ウイリアムズ(C. B. Williams)によって発表された。彼はシドニー(Philip Sidney)の著作を調べ、同一人物の著作でも散文(Prose)と韻文(Verse)では、最も多く使われている単語の長さの値が異なる場合があることを示した。そのデータの折れ線グラフを図1に示す。
 ウイリアムズはこの結果を用いて、シェイクスピアとベーコンの文章で、最も多く使われている単語の長さが異なるのは、著者が異なる可能性も考えられるが、用いた文章の形式による差である可能性もあり得ると指摘している。

単語の長さの折れ線

図1 単語の長さの折れ線

2. バラツキ

(1) 分散と標準偏差

 データの平均を基準としたバラツキ(散らばり)を示す度合としては分散があり、次の式によって定義される。

分散の定義式
 表1のデータの分散は次のように求めることが可能である。
分散の求め方の例
 分散の正の平方根を標準偏差と呼ぶ。
標準偏差の定義式
 ただし、標本データから母集団の性質を推測する場合は、次の式を用いるのが一般的である。データ解析のソフトには次の計算式が用いられていることに注意して欲しい。
データ解析のソフトに用いられる計算式

(2) データの範囲と分位数

 バラツキに関する統計量として、データの範囲や分位数がある。 データの範囲とは、データの最大値から最小値を引いた値を指す。
 分位数とは、データを小さいものから大きい順に並べ、その範囲を等間隔に区切った境値である。10等分、4等分が多く用いられている。4等分にしたとき、各等分の境となる値を四分位数(Quartile Points)と呼ぶ。表1のデータを4等分した結果を表2に示す。25%点の値(1+1)/2=1を第1四分位数、50%点(中央値)を第2四分位数、75%点の値(4+5)/2=4.5を第3四分位数と呼ぶ。第3四分位数から第1四分位数を引いた値を四分位範囲とも呼ぶ。

表2 四分位数

四分位数

 表2のようにデータの個数が少ないときには、四分位数の長所があまり見られないが、データの個数が非常に多いときには、四分位数を用いるとデータの全体像が見やすくなる。
 統計学者ユール(Yule)は、1940年代に文の長さの平均値、中央値、四分位範囲は、同じ作家の作品ではほぼ等しくなるが、異なる作家の間ではこれらの統計量が異なることを指摘した。
 ここでは日本語の文章におけるデータを用いて説明するため、青空文庫(http://www.aozora.gr.jp/)から昭和初期の3人の作家である泉鏡花(1873~1939)、岡本綺堂(1872~1939)、島崎藤村(1872~1943)のそれぞれ20作品をダウンロードして用いる。文章からどのような要素を分析に用いるかは、研究目的に依存する。ここでは読点「、」の打ち方における書き手の癖について分析することにする。
 読点は、通常文章を書くとき、切れ・続きを明らかにするために、文の中の意味の切れ目に付ける符号として用いられている。しかし、読点の付け方にははっきりとした規則性がなく、どこを意味の切れ目にするかは書き手によって異なる。
 並立する要素の間の読点の打ち方は、文章のどの書き手においても、そう変わるものではないが、「私は、数人の作家の文章を、次に述べる方法で分析した。」のように副助詞「は」の後ろで必ず読点を打つ人もいれば、場合によって打ったり打たなかったりする人もいるようである。読点の打ち方について、どの品詞の後に打つか、どの単語の後に打つか、どの文字の後に打つか、読点を打つ間隔など、いくつかの視点からデータを集計することが可能であるが、どの文字の後に打つかについては、データが集計しやすく、また書き手の特徴が掴みやすいことが知られている。頻度が高い21項目と「その他」に分けた、 合計22項目(「て、」「は、」「で、」「と、」「が、」「に、」「ら、」「も、」「い、」「り、」「か、」「し、」「た、」「く、」「の、」・・・「その他」)について計量分析をすることにする。このようなデータは、集計ツールMLTPを用いると、文章のテキストファイルから簡単に得られる。集計したデータのcsv形式のファイルを次のサイトに掲載してある(http://mjin.doshisha.ac.jp/data/index.html)。
 分析に用いた文章の長さは同じではないので、百分率を用いて分析を進めることにする。
 すべてのデータを載せる誌面がないので、その中から泉鏡花と岡本綺堂のそれぞれ20作品における「と」の後に読点を打った百分率を次に示す。

「と」の後に読点を打った百分率
 この2組のデータの平均、分散などを表3に示す。表3から分かるように、明らかに泉鏡花の平均値が岡本綺堂より小さく、両組のデータの分布範囲は重ならない。

表3 両氏の「と、」の基本統計量

平均 分散 最小値 最大値
泉 鏡花 5.79 1.44 4.37 8.29
岡本綺堂 15.36 12.64 8.62 20.51

3. 基本統計量と図示

(1) ヒストグラム

 大量の量的データを分析する場合、データの範囲をいくつかの階級(区間)に分け、各階級に属する値を集計して図示する方法として、ヒストグラム(Histogram)がある。
 ヒストグラムとは、横軸に階級を示し、縦軸にその階級に属する度数(あるいは相対度数)を示す統計グラフの一種である。
 泉鏡花の20作品における「と、」が使用された百分率の最小値は4.37であり、最大値は8.29である。この両点を含む4から8.5までを9つの階級(区間)に分けて集計した度数と相対度数を表4に示す。「階級の代表値」4.5は、4から4.5までを含む階級であることを示し、この階級内に属する値は2つであるので、その度数は2である。相対度数は、各階級の度数を総度数で割った値である。百分率で示す場合もある。
 同じの方法で集計した岡本綺堂のデータを表5に示す。このような度数(あるいは相対度数)を隙間がない棒で示したグラフをヒストグラムと呼ぶ。泉鏡花、岡本綺堂のデータのヒストグラムをそれぞれ図2、3に示す。

表4 泉 鏡花のデータ集計表
階級の代表値 度数 相対度数
4.5 2 0.10
5.0 4 0.20
5.5 5 0.25
6.0 2 0.10
6.5 2 0.10
7.0 2 0.10
7.5 0 0.00
8.0 1 0.05
8.5 2 0.10
合計 20 1

表5 岡本綺堂のデータ集計表
階級の代表値 度数 相対度数
10 1 0.05
12 2 0.10
14 6 0.30
16 1 0.05
18 3 0.15
20 6 0.30
22 1 0.05
合計 20 1

泉鏡花のヒストグラム

図2 泉 鏡花のヒストグラム

岡本綺堂のヒストグラム

図3 岡本綺堂のヒストグラム

 両ヒストグラムの中心が大きくかけはなれていることは、両氏が「と」の後に読点を打つ癖が大きく異なることを意味する。

(2) 箱ひげ図

 量的データの中心とバラツキを同時に図示する方法として、箱ひげ図がある。箱ひげ図とは、長方形(箱)の両端に直線(ひげ)をつなげた図4のようなグラフである。 長方形の箱(ヒンジ)の両端は25%点と75%点を示し、長方形の中の線は50%点(中央値)を示す。通常、両端のひげの長さは、箱の長さの1.5倍以内の最大値と最小値を示す。ただし、1.5 倍は絶対的なものではない。ひげの外に、はみ出したものは、異常に大きい(あるいは異常に小さい)値であり、外れ値と呼ぶ。

箱ひげ図

図4 箱ひげ図

 データの中心とバラツキに関しては、箱ひげ図を用いて視覚的に考察することができる。図5に、ヒストグラムに用いたデータの箱ひげ図を示す。図の中の×印はそれぞれのテキストを示す。点が重ならないようにするため、横軸にランダムに分散させている。図5から、岡本綺堂は泉鏡花より「と」の後に読点を明らかに多く打っており、そのバラツキも大きいことがわかる。

「と、」の比率の箱ひげ図

図5 「と、」の比率の箱ひげ図

(3) 散布図

 ヒストグラムと箱ひげ図は、いずれも1変数の量的データを図示する方法である。
 変数が2つの場合は、1変数を横軸、もう1変数を縦軸にしてプロットする図6のような図示方法が多く用いられている。このような図を散布図という。
 図6は、3人の作家(泉、岡本、島崎)のそれぞれ20作品における読点の打ち方に関するデータの中の「と、」の百分率を横軸に、「た、」の百分率を縦軸にした散布図である。図の中のラベルの先頭の文字I、O、Sは、それぞれ泉、岡本、島崎を示し、その隣りの数値は用いた文章の通し番号である。

「と、」「た、」の使用率の散布図

図6 「と、」「た、」の使用率の散布図

 図で分かるように、点線は文章を著者別に分ける境界線である。この境界線は、書き手別のデータの最小値と最大値の境である。このような情報を用いると、次のような書き手を識別するルールを構築することが可能である。

書き手を識別するルール

4.変数の選択(特徴の抽出)

 前節のような著者の特徴が顕著な変数を、多くの変数の中からどのように見つけ出すかが問題である。変数が少ない場合は、すべての変数について、箱ひげ図を作成しながら考察すればよいが、変数の数が多いと膨大な労力が必要となる。
 ここではデータのバラツキについて考えてみよう。ある変数における書き手の特徴が顕著に現れると、その変数における書き手の間(群間)のバラツキは大きく、書き手ごと(群内)のバラツキは小さいはずである。そこで、偏差の平方和を用いて、どの変数に書き手の特徴が顕著に現れているかについて分析を行うことにする。
 所属する群が既知であるデータ

所属する群が既知であるデータ
があるとする。xigはg群の中のi番目のデータである。
 データにおける総偏差の平方和は、群間の偏差の平方和と群内の偏差の平方和に分解できることが知られている。
データにおける総偏差の平方和
SSは、総偏差の平方和であり、次の式で定義されている。mgはg群の個体数を示す。
データにおける総偏差の平方和2
SSbは、群間(著者間)の偏差の平方和であり、次の式で定義されている。式の中の群内の平均は、群内の平均である。
群間(著者間)の偏差の平方和
 SSwは、群内(著者別)の偏差の平方和であり、次のように定義されている。
群内(著者別)の偏差の平方和
 各群のバラツキが等しい場合、群間の偏差の平方和と群内の偏差の平方和の比SSb/SSwが大きければ大きいほど書き手の特徴が顕著となる。
 3人のそれぞれ20作品における読点をどの文字の後に打っているかに関する15変数のSSSSbSSwSSb/SSwを表5に示す。
 群間と群内の偏差平方和の比SSb/SSwが高い上位4位の箱ひげ図を図6に示す。散布図を作成し、考察するとどの変数の組み合わせで文章が著者ごとに最もよく分類されるかが考察できる。
 変数「の、」のSSb/SSwは、「た、」のSSb/SSwより高いのにもかかわらず、書き手を分類するのには変数「た、」がより有効であることが図6で読み取れる。これは、各群内の分散が等しくないのが1つの原因である。そこで、データマイニング(Data mining)の分野では、Gini分散指標(Gini diversity index)と呼ばれる指標が多く用いられている。

表6 変数ごとの偏差の平方和
て、 は、 で、 と、 が、 に、 ら、 も、 い、 り、 か、 し、 た、 く、 の、
SS 1055.13 625.69 538.67 1523.18 310.80 232.43 125.29 210.59 58.30 36.12 21.48 24.97 95.44 27.88 105.76
SSw 533.43 318.12 247.61 287.89 131.30 194.00 90.19 145.71 35.70 26.03 20.23 21.06 35.63 27.68 33.51
SSb 521.70 307.57 291.06 1235.30 179.50 38.43 35.10 64.88 22.60 10.10 1.25 3.92 59.80 0.20 72.25
SSb/SSw 0.98 0.97 1.18 4.29 1.37 0.20 0.39 0.45 0.63 0.39 0.06 0.19 1.68 0.01 2.16

変数ごとの箱ひげ図

図7 変数ごとの箱ひげ図