このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。
二つの確率変数X,Yが独立でなく、分布に特定の関係を持つことを相関関係という。 この時、この相関関係の強さに注目する。 得られたデータから相関関係を調べるには、まずは、散布図などデータの関係を可視化する必要がある。 そして、もし、散布図が円や長方形ではなく、特定の図形に見える場合、何らかの相関関係があると考えることができる。
共分散\sigma_XY=Cov(X,Y)=\sum (Xi-\mu_X)(Y_i-\mu_Y)に対して、 ピアソンの積率相関係数\rho_XYは \sigma(X,Y)/\sigma_X, \sigma_Y あるいは、不偏共分散 s_XY、不偏分散 s_X^2, s_Y^2用いると s_XY/s_X s_Y とする。これらは等しい(つまり、nで割るかn-1で割るかは、統一していれば良い)。 この相関係数は -1\leq \rho_XY\leq 1 という関係があり、 0は無相関、正の値なら正の相関、負の値なら負の相関であると言う。 絶対値が1に近ければ相関が強い。
相関関係は関係の強さを分析するものです。 一方、回帰分析は2つの確率変数 X,Y の関係を求めるもので、因果関係が あることを 前提としている。 また、相関係数は関係式の係数ではなく、あくまでも相関の強さを示している。
なお、 XとYが独立なら Ex(XY)=Ex(X)Ex(Y)より、 Cov(X,Y)=Ex(XY)-\mu_X\mu_Y =Ex(X)Ex(Y)-\mu_X\mu_Y=0
ある店舗で販売されている10種類の商品について、価格(円)と1か月間の売上個数(個)を以下に示します。このデータをもとに、価格と売上個数の関係を分析してください。
商品番号 | 価格 (円) | 売上個数 (個) |
---|---|---|
1 | 200 | 50 |
2 | 400 | 45 |
3 | 800 | 30 |
4 | 1000 | 20 |
5 | 1500 | 10 |
6 | 500 | 40 |
7 | 1200 | 15 |
8 | 300 | 55 |
9 | 700 | 25 |
10 | 600 | 35 |
身長とジャンプ力の関係 あるスポーツチームの10人の選手について、身長(cm)とジャンプ力(cm)のデータが記録されています。ただし、ジャンプ力は選手の身長の影響を受けるため、単純な相関ではその関係が見えにくい可能性があります。
選手番号 | 身長 (cm) | ジャンプ力 (cm) |
---|---|---|
1 | 170 | 60 |
2 | 180 | 65 |
3 | 190 | 70 |
4 | 160 | 50 |
5 | 175 | 62 |
6 | 185 | 68 |
7 | 155 | 45 |
8 | 165 | 55 |
9 | 172 | 58 |
10 | 182 | 66 |