<<目次へ
はじめに
「心理学の研究において統計学の知識は絶対に欠かせない」という台詞は大学の先生から嫌になるほど言い聞かされていると思う。確かにその通りだし、数学が嫌いだからといって統計学を勉強しないような人はハッキリいって大学で心理学を学ぶべきではない。しかしそれでも「どう頑張っても分からない」という人はいると思う。なぜなら人には向き不向きがあるし、自分の嫌いな分野を積極的に勉強しようなどと前向きに考えられる人などはいないからだ(私は会ったことがない)。そこでこのページを使って心理学で必要となる統計学の知識を復習の意味をかねて、もう1度チャレンジしてもらおうと私は考えているのである。
まず手始めに心理学でよく使われる統計学の手法にはどんなものがあったか(大学の講義でどんな話をしたのか)を思い返してみよう。
- カイ二乗検定(独自性の検定)
- t検定(平均値の差の検定)
- 相関関係の検討
- 分散分析
どうです?まぁ、人によっては正規分布やサンプリングなどを紹介されたという人もいるだろうし、あるいはもう少し高度な多変量解析(回帰分析や因子分析)の話も聞いたという人もいるかもしれない。しかし大学の講義で説明される内容の大半以上は検定とよばれる分野の話だと思う。それほど検定は心理学にとって大切なことなんだよね。実際に心理学の論文を読んでみると多くの検定手法が用いられているのがわかるはずだ。
そんなわけでこのページでは上で紹介した4つの手法について説明していきたいのだけど、皆さんに1つだけお願いがあります。時々でいいから、いなくなってしまった人たちのこと、思い出してください。
Contentsへ戻る
カイ二乗検定(独自性の検定)
カイ二乗検定には適合度の検定や独自性の検定というものがありますが、心理学で使う多くの場合は独自性の検定と呼ばれるものです。したがって、ここでは独自性の検定について学んでいきましょう。
演習問題1-1. N高校3年生の自動車免許の所有数を調べたところ、免許を持っている男性は23人で女性は12人、免許を持っていない男性は42人で女性は39人であることがわかった(表1-1)。男女で自動車免許の所有数に違いがあるといえるだろうか。有意水準5%で検定してみよう。
表1-1.男女の免許所有数
歩行滑りやすい表面
免許あり | 免許なし | 計 | |
男性 | 23 | 42 | 65 |
女性 | 12 | 39 | 51 |
計 | 35 | 81 | 116 |
> dat<-matrix(c(23,12,42,39),ncol=2) > dat [,1] [,2] [1,] 23 42 [2,] 12 39 > chisq.test(dat) Pearson's Chi-squared test with Yates' continuity correction data: dat |
図1-1 統計ソフトRの実行例
図1-2 自由度1のカイ二乗分布 棄却域(青色)と採択域(ピンク)
図1-3 この図は何を表しているでしょうか?
Contentsへ戻る
t検定(平均値の差の検定)
t検定といってもいろいろな応用の仕方がありますが、心理学で最もよく使われるのは平均値の差の検定でしょう。例えばあるラットにAという薬を投入した場合とBという薬を投入した場合とでレバー押しの回数が異なるか、という問題などによく使われます。早速、演習問題を解いてみることにしましょう。
演習問題2-1. 20人の同じような体型の女性のうち10人に食パンを、別の10人にご飯を朝食に摂ってもらい、一定期間後に体重(kg)を測定したところ次のようなデータを得ることができた。成長に差があるといえるかを有意水準5%で検定してみよう。
表2-1
食パン | 61 63 59 55 64 59 63 56 56 63 |
ご飯 | 58 54 55 47 59 51 62 53 55 58 |
> a<-c(61,63,59,55,64,59,63,56,56,63) > b<-c(58,54,55,47,59,51,62,53,55,58) > var.test(a,b) F test to compare two variances data: a and b ゼオライトは何ですかF = 0.614, num df = 9, denom df = 9, p-value = 0.4787 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.1524994 2.4718067 sample estimates: ratio of variances 0.6139618 |
図2-1 F検定をRで行った結果
> a<-c(61,63,59,55,64,59,63,56,56,63) > b<-c(58,54,55,47,59,51,62,53,55,58) > t.test(a,b) Welch Two Sample t-test data: a and b alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.042735 8.357265 sample estimates: mean of x mean of y 59.9 55.2 |
図2-2 t検定をRで行った結果
図2-3. 自由度17のt分布 棄却域(青色)と採択域(ピンク)
図2-4. この図は何を表しているでしょうか?
Contentsへ戻る
検定のまとめ
さて、ここまででカイ二乗検定(独自性の検定)とt検定(平均値の差の検定)の2つの手法を扱った演習問題をしてきたわけだけど、それぞれの演習問題の解説がなかったのは自分自身で参考書をめくって欲しかったからだ。だから図1-3も図2-4もあえて図題を付けないようにしたわけだ。この2つの図の意味がちゃんと分かった人はとりあえず検定の基本的な知識はあるといってもよいだろうね。
それでも上の2つの演習問題が全く分からなかった人はもちろん、ちゃんと図の意味まで分かった人もまだまだ完全とは言えない。そこで検定についてもう少し詳しく考えてみることにしよう。
☆カイ二乗値やt値を求めていたけど結局、この値は何なのか?
先ほどまで諸君らが計算していたカイ二乗値やt値はパーセント点と呼ばれるものだ。またそれぞれの分布表から読み取っていた数値もパーセント点を読み取っていたのである。ではパーセント点とはいったい何なのか。それは下図をみてもらうのが1番だろう。
☆なぜ自由度を求めるのか?というか自由度が違うということはどういうことか?
何ブラキオサウルス
自由度が変わると分布曲線の形が変わってしまうのだが、分布曲線の形が変われば当然ながら採択域や棄却域の範囲が変わってしまう。試しに自由度4のt分布と自由度9のt分布を見比べてみよう(図3-1と図3-2)。見て分かるように、面積(両側確率p=0.025)は変わらないけれども、パーセント点が異なる。もし自分で好きな自由度を使っても良いというのであれば・・・それはいけないということ、分かりますよね?
図3-1. 自由度4のt分布 両側確率p=0.025 | 図3-2. 自由度9のt分布 両側確率p=0.025 |
☆p値とは何なのか?
まとめの最後にp値について説明しておこう。p値とは面積のことで、両側確率とか片側確率とも呼ばれる。例えば上の図3-1も図3-2の両側確率p=0.25となっているが、これはピンク色の部分の面積が両方あわせて0.025ありますよ、ということなのだ。つまり上で行った2つの演習問題において、図1-3と図2-4の緑色の部分の面積が求めたp値であるということであるのだ。
☆パーセント点とp値の関係
ここまで理解していれば当たり前のことなのだが、パーセント点(すなわちカイ二乗値やt値)が大きくなるほどp値(面積)も小さくなる。逆にパーセント点が小さくなるほどp値も大きくなる。だから帰無仮説を棄却できるかどうかを考えるときに『求めたカイ二乗値(もしくはt値)の方が大きければ帰無仮説を棄却できる』あるいは『求めたp値の方が小さければ帰無仮説を棄却できる』ということがいえるわけだ。
Contentsへ戻る
相関関係の検討
相関係数とは2変量間の関係の強さを表していることはすでにご存知ですね?また相関係数は-1〜1までの値をとり、-1に近づくほど強い負の相関がり、0であれば無相関、1に近いほど強いせいの相関があるのでした。この辺りのことはどの参考書にも載っているはずなので各自で確認してみてください。
ここでは共分散と相関係数の関係について説明します。というのも、相関係数のことについては(なんとなくでも)理解している人が多いのですが、共分散についてはあまり注目しないせいか、しっかりと理解できていない人がほとんどだからです。
◆分散は資料の情報量そのもの
「分散とはデータの散らばり具合を表す指標である」と教えられたはず。それはそれで間違いないのですが、分散についてもう1つ覚えておくとよいことがあります。それは「分散は分析する資料の情報量を表している」ということで、分散が大きいときは資料に含まれている情報量も豊富であるということです。
◆なぜ共分散ではなく相関係数を使うの?
共分散も相関係数も2変量間の関連を表す指標ですが、共分散ではなく相関係数を使う理由は一言でいうと「わかりやすいから」です。
以下の2つのグラフから2変量の相関関係を検討してみましょう(図題を忘れましたが、左側の図をFig.1、右側の図をFig.2としておきましょう)。
[相関係数をみて判断した場合]
Fig.1の相関係数は0.93でFig.2の相関係数は1となっており、両方とも2変量間に強い正の相関がみられるといってよいでしょう。
[共分散をみて判断した場合]
Fig.1の共分散は308.36、Fig.2の共分散は9.17となっている。共分散の値が大きいFig.1の(2変量の)ほうが強い正の相関がみられる。
さて、ここでおかしなことが起きてしまいました。相関係数はFig.2の方が高いのだが、共分散はFig.2の方が高い。これはどちらを優先して判断するべきか、、、などとなってしまいますが、これこそが共分散の弱みなんです。
共分散はデータのスケールに大きく左右されてしまうため、Fig.1で扱ったような2変量間のデータにおいて、どちらか(あるいは両方)の変量のデータの単位が大きくなると共分散の値は大きくなってしまうのです。
例えば以下のデータをもとに共分散と相関係数を出してみるとよくわかります。相関係数は0.37なので正の相関が顕著にみられるとはいえない値ですが、共分散は78100です。78.100とかではなく、78100(七万八千百)です。・・・どんだけ強い正の相関があるんだ!!って話ですよね。
つまり共分散で2変量間の相関を判断するとえらいことになるわけです。それに引き換え、相関係数は値に左右されない絶対的な指標(チョット言い過ぎのような気もしますが)ともいえます。
x3 | 1000 | 2000 | 3000 | 4000 | 5000 | 6000 |
y3 | 1530 | 1250 | 1344 | 1500 | 1490 | 1511 |
Contentsへ戻る
分散分析
1. 一元配置の分散分析
因子分析
0 件のコメント:
コメントを投稿