このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。
今回はデータ系列が特定の確率分布、特に正規分布を仮定した検定を取り 上げます。
2つのデータ系列 X1,...,Xn1 と Y1,...,Yn2 があったとして、それぞれ N(mu1,sigma1^2), N(mu2, sigma2^2) に従っているとします。 帰無仮説として、 「sigma1=sigma2」 や sigma1=sigma2 のときに mu1=mu2 かどうかを考え ます。
例えばもともと正規分布に従うデータが観測されるような系について、事 前と事後でそれぞれ観測した結果に対して、事前と事後で系に変化が無い という帰無仮説 を立てることで、学習とか広告とかの効果の有無を確認することができま す。
2つのデータ系列が正規分布に従うとして、それの分散が等しいかどうか について、不偏分散S1, S2 の比 F=S1/S2 を考えます。 この比はデータ数が、 n,m 個のとき、 S1 は自由度 n-1、 S2 は自由度m-1 のカイ自乗分布に従います。 そして、 F=S1/(n-1) / S2/(m-1) は自由度(n-1,m-1)の F分布に従うため、 検定に用います。
N(mu, sigma^2) に従うとされる観測値 X1,..., Xn に対して、平均値 \bar{X}=(X1+...Xn)/n の確率分布を考える。 正規分布は再生性があるため、 (X1+...Xn)はN(nmu,nsigma^2) に従う。 そのため、 W=\sum (Xi-mu)/\sqrt{nsigma^2} は N(0,1)に従う。 このとき、真の分散ではなく、不偏分散 s を用いることで、 T=(\bar{X}-\mu)/s/\sqrt{n} =W/\sqrt(s^2/\sigma^2) は 自由度n-1 のt分布に従う。
具体的な検定は T値=(平均の差) /(平均の差の標本誤差) となるが、 この平均の差の標本誤差は 2つの分散が等しいとの仮定により、 プールされた分散sp^2=Var(\bar{XA}-\bar{XB})を考えると Var(A-B)=Var(A)+Var(B)より、 Var(\bar{XA}-\bar{XB})=Var(\bar{XA})+Var(\bar{XB}) また、Var((X1+...+Xn)/n)=Var(X)/n より、標本分散から統合した分散sp^2= ((n-1)Sa^2+(m-1)sb^2)/(n-1+m-1) に対して、平均の差の標本誤差は \sqrt{sp^2/na+sp^2/nb) となる。
F(n-1,m-1)=標本分散A/(n-1)/標本分散B/(m-1) は 2つの確率分布の同時確率分布で、 fの確率密度関数は2つのchi^2分布の確率密度関数の積になるため、 f(x,y)= 1/(2^{(n-1)/2}\Gamma((n-1)/2))x^{(n-1)/2-1}e^{-x/2} 1/(2^{(m-1)/2}\Gamma((m-1)/2))y^{(m-1)/2-1}e^{-y/2} ここで、変数変換として z=((x/(n-1)) / (y/(m-1)) w=x+y より、 f(z;d1,d2) =(d1/d2)^(d1/2)z^(d1/2-1)/B(d1/2,d2/2)(1+d1/d2z)^((d1+d2)/2)
U=(n-1)s^2/\sigma^2=
2つのグループの体重が次のように得られるとする。
グループAの体重(kg): | 72, 74, 68, 70, 69, 71, 73, 75 |
---|---|
グループBの体重(kg): | 65, 66, 68, 64, 67, 66, 65, 68 |
このグループごとの分散が等しいことを有意水準5%のF検定で示せ
このグループごとの平均が異なることを有意水準5%のt検定で示せ