[連載]フリーソフトによるデータ解析・マイニング 10

Rと推定


 

 

1.         母集団と標本

 国勢調査のような調査対象に対して漏れなく行う調査を全数調査と言い、アンケート調査、テレビの視聴率調査のような調査対象の集団から一部を抽出して行う調査を標本調査と言う。このとき、調査対象全体を母集団、全体から一部を取り出した部分を標本、あるいはサンプルと呼び、取り出した個数を標本の大きさ、あるいは標本サイズと呼ぶ。

標本調査の場合は、標本のデータが母集団の性質をなるべく忠実に反映するように標本を抽出しなければならない。そのため、標本抽出には、母集団を構成する要素が偏りなく均一の確率で抽出されるような抽出方法を用いる。このような抽出方法を無作為抽出法と呼ぶ。

 標本調査では、しばしば標本データの統計量 (比率、平均、分散など)を用いて母集団の特性値(比率、平均、分散など)を推測する。母集団の特性値比率、平均、分散などを母数(母比率、母平均、母分散など)と呼ぶ。標本データの統計量を用いた母数の推定は確率分布に基づいて行う。

 

2.確率変数と確率

確率変数をXとし、1つの値が与えられた場合、確率下側確率と呼ぶ。連続型確率変数を例として図で表すと図1のような確率密度曲線と横軸との間に囲まれたbまでの面積が確率である。

1 連続型確率変数の下側確率

 

 Rには下側確率の値を求める関数が用意されている。正規分布の下側確率を求める関数はpnormである。例えば、標準正規分布の2の下側確率は次のように求める。

 

> pnorm(2,mean=0,sd=1)

[1] 0.9772499

 

標準正規分布の場合は、引数mean=0sd=1を省略してもよい。meanは平均、sdは標準偏差である。下側確率に対応する上側確率と呼ぶ。上側確率は全体から下側確率を引くことで求めることができる。

 

=1

 

 図2に標準正規分布の下側確率と上側確率を示す。

 

 

2 標準正規分布の

 

確率分布の曲線が原点を中心とした対称分布である場合、確率両側確率と言う。区間[]の確率は図3のような区間内の密度曲線と横軸との間に囲まれた面積で、次のように求める。

 

 

3 確率

 

例えば、標準正規分布の[2,2]の確率は次のように求める。

 

> pnorm(2)- pnorm(-2)

[1] 0.9544997

 

標準正規分布の[-2,2]の確率は約0.96である。これは‐2から2までの面積は全体の約96%を占めることを意味する。

3のような分布では、確率密度曲線の峰(中心) の近隣部分は試行を繰り返し行う際に、観測の結果が現れる確率が高く、峰から両側に離れるほど確率が低い。データを分析する際には、確率が非常に低いものはしばしば無視する。問題は、確率が低いか、それとも高いかは何を基準とするかである。その基準として確率が用いられている。一般的には、確率0.90.950.99のように決めておき、それに対応するを求め、より小さく、かつより大きい確率変数の確率は低いと判断する。この分位点(quantile)と呼ぶ。正規分布の分位点は正規分布の分位点関数qnormを用いて求めることができる。分位点関数は下側確率関数の逆関数である。

例えば、標準正規分布の0.975の分位点は次のように求める。

 

> qnorm(0.975)

[1] 1.959964

 

4に標準正規布の分位点、下側確率の対応関係を示す。

 

4 標準正規分布の分位点と下側確率

 

標準正規分布は=0を中心とした左右対称分布である。=0を中心とした確率0.90.950.99の分位点 の対応関係を表1に示す。

 

1 標準正規分布の確率と分位点

0.9

-1.64485

1.64485

0.95

-1.95996

1.95996

0.99

-2.57583

2.57583

 

3.推定

 アンケート調査や製品の検査などでは全数調査が不可能な場合がほとんどである。このような標本調査では標本データの統計量を用いて、その標本が属する母集団の母数を推測する。標本データの統計量を用いて母数を推測することを推定と言う。推定には点推定と区間推定がある。

 点推定とは、標本の統計量を母数と見なす推定方法である。これは、標本サイズが十分大きい場合は標本分布がその母集団の分布に近似するという考えに基づいている。しかし、標本サイズが十分大きくない場合は、同一の母集団から抽出した異なる標本の統計量はそれぞれ異なる。区間推定は、この異なる値が納められる範囲・区間を推定することである。区間推定には、いろいろな統計量について推定することが可能であるが本稿では母平均と母比率の区間推定のみについてシミュレーションを通じて説明する。

 

3.1 データの標準化

まず一つのシミュレーションを行うことにする。平均が170で標準偏差が5である正規分布の乱数を300個発生させる。これは平均が170cm、標準偏差が5である母集団から300人を無作為に抽出したと考えることもできる。

 

>X<-rnorm(300,170,5)

 

発生させた乱数について、次に示した式の変換を行い、の平均と分散を求めて見よう。

 

 

> Z<-(X-mean(X))/sqrt(var(X))

> mean(Z)

[1] -1.436773e-15

> var(Z)

[1] 1

 

 上記の-1.436773e-15-1.436773の小数点を左に15桁を移動した値に等しいので0であると見なしてもよい。この値は乱数データに基づいた計算結果であるので、読者が同じのコマンドを実行してもこれと同じの結果が得られないが、変換されたデータの平均は0、標準偏差は1に近似する点では一致する。

 

3.2 標本平均の性質

 前節のような同じの正規分布の乱数を繰り返し発生させ、毎回発生させた乱数の平均値の平均と分散を考察してみよう。

 平均が170、標準偏差が5である正規分布から300の乱数を発せさせたデータを1つの標本とし、その平均値を求める。このような乱数を1000回発生させると1000個の平均値が得られる。この1000個の平均値の平均と分散(あるいは標準偏差)の規則性について注意して欲しい。

次に標本サイズ300の乱数を1000回発生させた標本平均の平均と分散を求めるコマンドと結果を示す。

 

> kekka<-matrix(0,1000,300)

>for(i in 1:1000){kekka[i,]<-rnorm(300,170,5)}

> temp<-apply(kekka,1,mean)

> mean(temp)

[1] 169.9892

> var(temp)

[1] 0.08373682

 

求めた標本平均の平均169.9892は母集団の平均170に近似し、標本平均の分散0.08373682は母集団の分散25を標本サイズ300で割った値25/300=0.083333335に近似している。これは次の定理のシミュレーションである。

 

定理:正規分布から抽出した標本サイズがである標本の平均は正規分布に従う。

 

 
 

 

 


 

上記のシミュレーションではの乱数を発生している。よって発生された乱数の平均はに従う。この結果と前節の標準化に関する結果を用いると、標本平均を標準化したは標準正規分布に従うことが導かれる。

とき

 

表記の中「〜」は「従う」ことを意味する。ここでは母集団の平均と標準偏差を用いている。しかし、実際の問題では母集団の標準偏差が未知の場合が多い。標本のサイズが大きい場合は標本の不偏分散(標準偏差)を母分散の替りに用いることもできる。

 

とき

 

式の中の記号「」は近似的に従うことを意味する。問題は、標本のサイズがどのぐらいであれば大きいといえるかである。経験則としては30以上であれば大標本といわれているので一つの目安となる。

標本サイズが小さいときには標準化された確率変数は自由度分布に従うことが知られている。

 

とき

 

3.3 区間推定

確率変数Yの確率90%、95%、99%のように与えられたときそれに対応する区間[,]を信頼係数0.9=90%0.95=95%0.99=99%信頼区間と呼ぶ。信頼区間を求めることを区間推定という。信頼係数0.95=95%で求めた信頼区間をイメージ的に説明すると、100回の試行を行った時、95回の結果は信頼区間内に納めるが、5回ぐらいの結果は信頼区間[,]内に納めることが期待できない。信頼係数は1−αあるいは1001−α)%で表し、αを有意水準と呼ぶ。図5に標準正規分布における有意水準、信頼係数、信頼区間などの対応関係を示す。

5 標準正規分布の信頼区間

 

3.3.1 母平均の信頼区間

前節のに基づいて導出した母平均の信頼区間の関係式を次に示す。

 

 

この式の中の次に示す不等式が与えている区間が有意水準α(あるいは信頼係数1−α)における母平均の信頼区間である。

 

 

 不等式の中のは有意水準αが具体的に与えると正規分布の分位点関数qnormを用いて求めることができる。はそれぞれ標本の平均、サイズ、母集団の標準偏差である。よって、母集団の標準偏差が既知である場合は、母平均の信頼区間を簡単に求めることができる。母集団の標準偏差が未知であっても標本サイズが大きい場合は、標本の不偏分散を母分散の代わりに用いることが可能である。

標本サイズが小さい場合は、母分散の代わりに標本の不偏分散を用いると次の確率変数は自由度分布に従うことが知られている。

 

 

よって、標本サイズが小さい場合、標本の平均と分散を用いて母平均の信頼区間を求めるときには次の式を用いる。

 

 

Rでは分布の分位点関数qtを用いて求めることができる。例えば、有意水準α=0.05,標本サイズ=10は次のように求める。

 

> qt(0.025,9)

[1] -2.262157

 このようにRで求めたには正負の符号がついているので、区間の端点を計算する際には、式

 

左の端点:

右の端点:

 

のなかのは絶対値を用いるべきである。

 

3.3.2 母比率の信頼区間

試行、実験、調査などで、ある観測項目が現れるか、現れないかに関する結果は二項分布に従う。確率変数123、・・・、30をとる二項分布のグラフを作成し、さらに同じの座標上で平均が15=50*0.3、分散が10.5=50*0.3*0.7である正規分布のグラフを作成するコマンドを次に示しその結果を図6に示す。

 

> x<-0:30

> plot(x,dbinom(x,50,prob=0.3),type="h")

> sd1<- sqrt(50*0.3*0.7))

>curve(dnorm(x,mean=0.3*50, sd=sd1,add=T)

 

6 二項分布と正規分布

 

図6から標本サイズが大きい場合(ここでは50)二項分布は正規分布に非常によく近似していることがわかる。つまり標本サイズが大きいときには二項分布は平均、標準偏差の正規分布に近似的に従い、さらにそれを標準化すると標準正規分布に近似的に従う。

 

 

この性質を用いると比率の推定区間は次の式を用いて求めることができる。

 

 

式の中の不等式を次のように整理することができる。式の中のは母比率で、は標本の比率である。

 

 

最近テレビや新聞では頻繁に政権の支持率等に関する調査データが用いられるようになった。そのような情報の受け取る際には正しい統計知識が必要である。

例えば、1000人に対して調査を行った結果、現政権に対する支持率が45%だとする。有意水準5(α=0.05)の場合の母比率の信頼区間の計算結果を次に示す。

 

> z<-abs(qnorm(0.025))

> 0.45-z*sqrt(0.45*0.55/1000)

[1] 0.4191656

> 0.45+z*sqrt(0.45*0.55/1000)

[1] 0.4808344

 

得られた結果を小数点4桁まで丸めると母比率の推定区間はとなる。この推定区間は、今回の調査では支持率が45%という結果が得られているが、母集団の支持率はおおよそ42%〜48%であると推測されることを意味する。

1に頻繁に使用されている確率分布の下側確率と分位点を求めるRの関数を示す。


 


1 Rにおける下側確率と分位点の関数

分布の名

下側確率

分位点

一様(Uniform)分布

punif(q, min=0, max=1,・・・)

qunif(p, min=0, max=1,・・・)

二項(Binomial)分布

pbinom(q, size, prob,・・・)
qbinom(p, size, prob,・・・)

ポアソン(Poisson)分布

ppois(q, lambda,・・・)

qpois(p, lambda,・・・)

正規(Normal)分布

pnorm(q, mean=0, sd=1,・・・)

qnorm(p, mean=0, sd=1,・・・)

カイ2(Chi-square )分布

pchisq(q, df, ncp=0,・・・)

qchisq(p, df, ncp=0,・・・)

t分布

pt(q, df,・・・)

qt(p, df,・・・)

F分布

pf(q, df1, df2,・・・)

qf(p, df1, df2,・・・)

ガンマ(Gamma)分布

pgamma(q, shape,・・・)

qgamma(p, shape,・・・)

ベータ(Beta)分布

pbeta(q, shape1, shape2,・・・)

qbeta(p, shape1, shape2,・・・)

対数正規(Lognormal )分布

plnorm(q, meanlog = 0, sdlog = 1,・・・)

qlnorm(p, meanlog = 0, sdlog = 1,・・・)

ロジスティック(Logistic)分布

plogis(q, ・・・)

qlogis(p,・・・)

指数(Exponential)分布

pexp(q, rate = 1, ・・・ )
qexp(p, rate = 1,・・・)

負二項(Negbinomail)分布

pnbinom(q, size, prob, mu,・・・ )

qnbinom(p, size, prob, mu,・・・)

幾何(Geometric)分布

pgeom(q, prob, ・・・ )
qgeom(p, prob,・・・)

超幾何(Hypergeometric)分布

phyper(q, m, n, k, ・・・ )

qhyper(p, m, n, k,・・・)

コーシー(Cauchy)分布

pcauchy(q,location=0,scale= 1,・・・ )
qcauchy(p,location=0,scale = 1,・・・)

ワイブル(Weibull)分布

pweibull(q,shape,scale=1,・・・  )
qweibull(p, shape, scale = 1,・・・)