bbz

偏差値

_
previous | next | edit
1: Mon Mar 18 21:18:16 2013
偏差値という言葉は高校受験の頃から聞いていてどんなものかは身をもって体験してわかっているつもりだが、じゃあこのデータから標準偏差を出せと言われても出せないし、標準偏差はいくつです、と言われてもピンとこない。私が統計的な考え方をするときに理解できる概念は平均値くらいである。あとは、度数分布(こんな言葉はつかわないが)をグラフにして眺めて、ちらばってるな、とか、固まってるな、という感覚的な判断をするのみである。そこで、ここで一発、分散とか偏差とか標準偏差とかいうものを高校の教科書を開いて整理してみる。
2: Mon Mar 18 21:24:21 2013
参考にする教科書は平成22年発行の、数研出版の「数学B」である。
3: Mon Mar 18 21:25:48 2013
いちおう、「平均値」から確認する。「平均値」とは、「代表値」のひとつとして最初に紹介されている。平均値以外の代表値には「中央値」「最頻値」がある。
4: Mon Mar 18 21:30:44 2013
「ヘイキン」という考え方は多くの人が日常生活でも使う。たとえば、「睡眠時間はヘイキンして6時間くらいです」とかいう風に。「平均値」の定義は「変量xがとるn個の値をx1, x2, ..., xnからなる一組の資料において、これらの値の総和をnで割ったものを変量xの平均値といい、(xの上に横棒)で表す。平均値(xの上に横棒)は次のようになる。

(xの上に横棒) = 1/n (x1 + x2 + .... + xn) = 1/n Σ(k=1からnまで)xk

5: Mon Mar 18 21:31:51 2013
「変量」という言葉が出てきたが、これは「ある集団を構成する人や物の特性を表す量」である。
6: Mon Mar 18 21:37:10 2013
多分多くの人がヘイキンというものは、「全部足して個数で割る」という風に理解しているだろう。私もそうである。厳密には、「n個の値からなる一組の資料において」という前提がある。先ほど例にあげた睡眠時間の平均値を言う場合、あえて「何年何月何日からいつまでで、これこれの方法で計測したもの」などとは言わないが、実際には最近1年とかの範囲で、時間も別に測って記録したものではなくだいたいで覚えている時間でのことである。
7: Mon Mar 18 21:39:36 2013
また、そのような曖昧な「資料」の値を、全部足してから割る人はほとんどいないであろう。「週末は10時間くらい寝ることもあるし忙しくて徹夜したこともあったけど普通は6時間くらいだな」と考えて「ヘイキン6時間です」と言うのである。
8: Mon Mar 18 21:42:50 2013
睡眠時間はあまり大きく変動しないからこのような考え方になる。ヘイキンと言えば一番よく使うのは試験の点数であろう。「(このクラスの今回の)数学のテストの平均点は70点です。」などと。あえて最初の部分をカッコで括ったのは、多くの場合いちいち言わないからである。言わなくてもわかっている、あるいは、言っても聞き流す。「何点だ?俺は平均点を上回ったか?」ということを皆気にする。
9: Mon Mar 18 21:45:12 2013
数学のテストになると、睡眠時間よりも値が様々であろう。100点満点で100点の人は数えるほど、0点はそういない。50点くらいの人が結構いて、80点を超えると少なくなってくるとか。
10: Mon Mar 18 21:53:29 2013
次は「中央値」である。「メジアン」という呼び方の方がよく使われるだろうか。私はほとんどというかまったくといっていいほど使わないが。なんとなく意味は察しがつくが、「資料を大きさの順に並べたとき、その中央の値」のことである。

資料の個数が偶数のときは中央の二つの値の相加平均になる。

10人の生徒のテストの点数が以下のようだったとする。

25 30 40 50 52 55 66 70 75 95

中央値は、(52+55)/2 = 53.5 である。

平均値は、(25+30+40+50+52+55+66+70+75+95) / 10 = 55.8 である。

11: Mon Mar 18 21:59:58 2013
これだとあまり変わらないので中央値の意義がわかりにくいので、年収にしよう。

10人の年収(単位100万円)

3 4.1 4.5 5.2 6 6.5 7 7.5 8 100

一人だけ突出している人がいる。

中央値は 12.5 / 2 = 6.25

平均値は 15.15

平均すると約1500万円になってしまうが、1500万円に近い人が全然おらず、
あまり意味のある数字ではない。
12: Mon Mar 18 22:01:40 2013
代表値の最後は「最頻値」。これはいいですね。モードというそうです。最も多い値。教科書には「靴や洋服などについて、最も売れ行きのよいサイズなどを知りたい場合には、最頻値はよい代表値である」とある。
13: Mon Mar 18 22:03:21 2013
次は、「資料のちらばり」。ここで紹介されているのは、「範囲」、「偏差」、「分散、標準偏差」である。

標準偏差が出てきた。これは「資料のちらばり」を示す値のひとつである。
14: Mon Mar 18 22:10:51 2013
「範囲」・・・「資料の最大値と最小値の差」。

たしかにそうだけど、なんかわかりにくいというか直感的でない。直感的に考えないのが数学か・・・。


「偏差」・・・「変量xがとるn個の値をx1, x2, ...., xn, それらの平均値を(xの上に横棒)とするとき、 x1-(xの上に横棒), x2-(xの上に横棒), ...., xn-(xの上に横棒)
を、それぞれ x1, x2, ...., xnの偏差という」

つまり「偏差」というのは値が複数、資料の個数分存在するわけである。

「平均からどれだけ離れているか」という値。平均点が50点のテストで60点だった人は偏差は10、100点だった人は50である。

しかし受験などで使われるいわゆる「偏差値」はこの値のことではない。
15: Mon Mar 18 22:17:03 2013
次は「分散」と「標準偏差」である。二つ合わせて紹介されている。

「偏差の平均値は常に0であるから、変量の値の散らばりの度合いを表すことはできない。変量xの散らばりの度合いを表す量として、偏差の二乗の平均値、すなわち

1/nΣ(k=1からnまで)(xk - (xの上に横棒))^2

を考えることが多い。この値をxの分散といい、s^2 で表す。」


・・・ちょっと、すぐには理解しにくい。
まず、「散らばりの度合い」という考え。
そして、「偏差の二乗の平均値」がなぜそれを表すことになるのか。

16: Mon Mar 18 22:27:39 2013
「偏差」は、資料の個々の値がそれぞれ平均からどれだけ離れているかという複数の値であり、
「分散」はその二乗を平均して求める一つの値で、資料全体の散らばりの度合いを表す。

偏差をそのまま平均してしまうと0になるので、二乗の平均値を使う。

でもなぜ二乗するのだろう。ここが実感しにくい。「実感」を求めたらダメなのか。


またテストの点数で例を示す。

30 40 45 50 55 58 62 65 70 90

平均値は56.5で、それぞれの偏差は以下のようになる。

-26.5 -16.5 -11.5 -6.5 -1.5 1.5 5.5 8.5 13.5 33.5

そしてこの偏差の平均を求めると確かにゼロである。ちょっと不思議だ。当たり前かな?


分散を求める。偏差の二乗は以下の通りである。

702.25 272.25 132.25 42.25 2.25 2.25 30.25 72.25 182.25 1122.25

この平均は、256.05である。

しかし、「分散は256.05です」と言われても全然ピンとこない。
散らばっているのか、いないのか。
複数の資料で値をとって比べれば「どちらが散らばっているか」はわかるが・・・。
17: Mon Mar 18 22:33:50 2013
分散を求める式は変形すると、

「変量の二乗の平均値から、平均値の二乗を引いたもの」

になる。

変形した式から分散をもう一度求めてみる。

変量の二乗は以下の通りである。

900 1600 2025 2500 3025 3364 3844 4225 4900 8100

そしてその平均値は3448.3

平均値の二乗は 56.5^2 = 3192.25

その差は 256.05
さっきと同じだ。
18: Mon Mar 18 22:36:57 2013
標準偏差は、この分散の正の平方根のことである。「ルート」である。

上記の例だと約16となる。

これが、「散らばりの度合いを表す数量」として使われるそうである。

やっぱりピンとこないけど。

なれてくると「標準偏差でかいなぁ」とかわかるようになるのかな。
19: Mon Mar 18 22:51:11 2013
さて、それでは受験で難易度の指標にされる偏差値とはどういうものだろうか。
「50が平均で、それより大きいほど難関」とされる。

「○大学△学部の偏差値は代ゼミで70」などというように使われる。

先ほど出した標準偏差は「16」であり、これは資料に対して一つの値である。
いわゆる「偏差値」はどうやって計算するのか?

ここは教科書には書いていない。

ウェブで調べる。
先に答えを書く。

偏差値 = 10 *(得点-平均点)/ 標準偏差 + 50

である。

標準偏差にもうひと手間かける。

「平均点と得点の差に10をかける」というのはどういうことか・・・
そしてそれを標準偏差で割ることの意味は・・・

50を足すのは、「平均からどれくらい隔たっているか」であろう。


とりあえずさっきの例で出してみようか。
20: Mon Mar 18 22:54:08 2013
40点だった人は、10*(40-56.5) / 16 + 50 ≒ 39.7

90点だった人は、10*(90-56.5) / 16 + 50 ≒ 71

なるほど。
21: Mon Mar 18 23:04:27 2013
Wikipediaによると、

・偏差値とは正規化のひとつの手段である。
・日本だけでなく海外でも使われているが「10」「50」には別の値が使われる。
・母集団の分布が正規分布に近い場合、母集団内の絶対的名位置を導くことができるが、そうでない場合はたんなる点数の上下と同程度の意味しか持たない。
22: Mon Mar 18 23:10:11 2013
「10」の意味であるが、これは「標準的な標準偏差」のようなもののようである。
実際の標準偏差が10だった場合、偏差値は「50プラス平均点との差」というわかりやすい値になる。

さっきの式をちょっと書き直すと、

(得点-平均点) * 10/標準偏差 となる。

標準偏差が大きい、つまり得点のばらつきが大きい場合は、(10/標準偏差)が小さくなり、
標準偏差が小さいと(10/標準偏差)が大きくなる。

つまり、「得点のバラツキが小さいほど、同じ得点の場合に偏差値は高くなる」ということになる。

23: Mon Mar 18 23:10:59 2013
スッキリした。
24: Tue Mar 19 19:49:48 2013
25: Tue Mar 19 20:37:37 2013
googleのchart apiを使うとシグマとか平方根とかを含んだ数式を表示できることを知って試してみたのだがなぜかこのページでは表示できない。

http://chart.apis.google.com/chart?cht=tx&chl={\displaystyle \frac{1}{n}\sum_{k=1}^{n} {(x_k-\overline{x})^2}
^
previous | next | edit