17.1.10 相関

データの組の集まりが与えられたとき,それらが「似ている」がどうかを調べるものとします.たとえばクラス全員について「身長と体重」を調べたとすると,

身長が高い方が体重も大きい

ことが予想されますね.これに対して,同じく「視力と体重」を調べたとすると,

視力がよい方が体重も大きい

と言えるでしょうか.おそらくこの2つのデータ (視力と体重) にはこのような関係はなく,ほとんど無関係であることが予想されます.

「身長と体重」のような例では,この2種のデータは相関が高いと言います. 「相互に関連している」という意味です. また,「視力と体重」の場合は相関が低いと言います. 片方のデータ(視力)を見ても,他方のデータ(体重)を推測することがほとんどできないことになります. この,相関のぐあいを示す指標が相関係数 (correlation coefficient) で,両者が比例している,もっと一般的には一次の関係で係数が正の場合に+1となり,全く無関係なら0,一次の関係で係数が負であれば-1となります.

今扱っているデータを使って,1年生時の成績と2年生時の成績の相関を計算してみましょう.増減の方向が5科目でだいたいそろっていれば正,そうでなければ負になります.

ABCDEF
1科目英語数学国語社会理科
21年生4080405388
32年生6546668252

どうでしょうか.ざっと見ただけでも,点数の高かった科目の点数は下り,低かった科目の点数は上っていることがわかります.

相関係数の計算をするには,個数が同じ2組のデータが必要です.この例では,1年生のデータ("B2:F2")と2年生のデータ("B3:F3")を指定することになります.