統計学の基礎:平均・偏差・偏差平方和・分散・標準偏差を解説するよ!
「ど文系で数学1A、2Bすらできない!シグマわかんない!だけど大学では統計を使う必要があって・・・・大学って基本的に高校レベルの内容クリアしてるの前提だからめっちゃムズイ!死ぬ!」って人向けに、中学生レベルにまで落として、統計の基礎を学習できるよう書きました。
内容的には、平均、偏差、偏差平方和、分散、標準偏差あたりをカバーします。このへんの言葉聞いて「?」って人は読んでください。
エクセルを使います。実際にこのページ通り数字入力しながらやると、直観的にわかると思います。初めてエクセル使う人でもわかるように書いたつもりです。
練習問題
さて、クラスAの10人の人の英語のテストの点数を取ってきました。X1さん~X10さんの点数は以下のようになりました。
このクラスの
- 平均
- 偏差平方和
- 分散
- 標準偏差
を求めなさい
平均
さて、まずこれの合計値を求めましょう。
40 + 60 + 50 + .... + 50 をしてみましょう。
合計(SUM)は、エクセルでは以下のように入力して求めます。まず、灰色のところをダブルクリックしてみましょう。
40 + 60 + 50 + .... + 50 をしてみましょう。
合計(SUM)は、エクセルでは以下のように入力して求めます。まず、灰色のところをダブルクリックしてみましょう。
そうすると入力画面になると思うので、以下のように入力します。合計を英語でSUMいいます。
=SUM(
と書いて、そのあとX1の40をクリックしたまま、X10の50まで伸ばして、放します。そうすると、40-50までの数値の範囲を選択することができるので、最後に
)
を入力します。
そしてENTERを押します。そうすると、合計値490という合計値になります。
今後は平均を求めてみましょう。平均は、X1~X10の合計値を、10で割ればよいですね。
こんどは下の緑のところをダブルクリックしてみましょう。
平均は英語でaverageです。さっきと同じように青い範囲を全部選びます。40をおして、50まで伸ばした後に、
を押し、ENTERを押します。
)
を押し、ENTERを押します。
これで平均が求まりましたね!
偏差、偏差の和
さて、今度は偏差を求めましょう。偏差とは、各値から平均値を引いた値になります。平均からどれほど離れているのかを示す値ですね。偏差は、のちの散らばりを表す分散、標準偏差の土台となる単位となります。
例えば、X1の40点から、平均点49点を引くと、偏差は-9になります。
これをエクセルで自動で計算します。まず、D3をダブルクリックして、
を入力して、X1の点数40をクリックします。そうすると、40点があるC3と表示されます。そしたら、今度は平均を引くので、マイナスの記号-を入力した後に、平均の値の49をクリックします。
=
を入力して、X1の点数40をクリックします。そうすると、40点があるC3と表示されます。そしたら、今度は平均を引くので、マイナスの記号-を入力した後に、平均の値の49をクリックします。
そのあとに、F4を二回クリックします。これは絶対参照と言います。気になる人は絶対参照と検索してみてください。そうするとドルマークがつくと思いますので、それでエンターを教えてください。こうすることで、絶対参照した位置は、固定されるようになり、ほかの値をドラッグアンドドロップしてもずれないようになります。
さて、-9と表示されたと思います。あとは、その-9から、その下も同じように計算して、すべての値の偏差を求めたいです。エクセルは頭がいいので、下の赤いところをクリックしたまま、X10のところまで延ばせば勝手に偏差を求めてくれますね。
これで、各値の偏差が出ました。
これを全部足すと、0になります。偏差の和は必ず0になります。そうなるように決まっております。
偏差の二乗、偏差平方和
さて、いま偏差(平均からどのくらい離れているか)を測定しました。
各値X1、X2、X3などが平均からどのくらい離れているのかを見ることができましたね。
一方で、この点数全体は、平均からどのくらい離れているのかを調べたいときにどうすればいいでしょうか。偏差をすべてたしたら、どのくらい離れているのかわかると思いますが、実は偏差をすべて合計すると、和が0になってしまうので別の手段を考えたほうがよさそうです。
そこで、この偏差の値を無理やり、全部+の値にすれば、散らばりの大きさを考えられますね。
まず、プラスの値にするには、①絶対値をとってみるという方法があります。
例えば、X1の偏差は-9ですが、これを絶対値記号をつけて、| -9 | = 9 にするという方法があります。しかし、この方法はあまり統計学では使いません。
その代わりに、 ②それぞれの値を二乗してみるという方法があります。(-9)~2 = 81にするという方法がありますね。この値は、偏差の二乗になるので「偏差平方」と呼ぶわけです。
統計学では、基本的には②の方法を使って、散らばりを測定します。
さて、全体どれだけ、平均がずれているかを調べたいとします。その場合は、今もとめた偏差平方をすべて足してあげればいいですね。そこで、偏差の値をすべて二乗し、足してみようと思います。それぞれの偏差平方をすべて足し合わせたもの、実はこれが偏差平方和とよびます。
さて、全体どれだけ、平均がずれているかを調べたいとします。その場合は、今もとめた偏差平方をすべて足してあげればいいですね。そこで、偏差の値をすべて二乗し、足してみようと思います。それぞれの偏差平方をすべて足し合わせたもの、実はこれが偏差平方和とよびます。
解説はしょっちゃいますが、下の図のように、=を入力した後に、-9のセルをクリックして、さらに二乗する記号^を押して、2を入力します。
そうすると、(-9)^2 = 81が出てきます。これをX10まで行います。
そうすると、X1からX10の偏差の平方はこのような値になります。
さて、それでは偏差の平方の和(=偏差平方和)を求めてみましょう。エクセルの使い方は省略しますが、こうなりますね。
さあ、これで偏差平方和が出ました。
分散、標準偏差
さて、ここまで来ればあとちょっとです。
分散は、偏差平方和の平均です。つまり、1290を10で割ればいいわけです。
平均を出すのは、average関数でしたね。偏差平方の平均を出してみましょう。
分散の値が出てきました。
さて、標準偏差ですが、これは分散のルートです。ルート(root)の二乗(square)
をすればいいので、ルート化する関数sqrtを利用します。
これで標準偏差が出ましたね。
さ、こんな感じで、実際にやってみると何やってるのかなんとなくわかると思います。毎回これをやるのは面倒くさいので、一般化します。そのための数式です。
一般化
平均の公式
x1、x2、x3から、最後の数字xnまで足して、その全体の個数nで割ったものが平均ですね。xの上に棒があるものをエックスバーと読みますが、これは平均のことです。
分散の公式
標本分散は気にしないでください。各値X1から、平均を引いたもの(偏差)の二乗をして、足し合わせたものを最後個数Nでわりましょうね!という意味です。(標本分散は、あとで推測統計の内容で習うことになるでしょう。)
s2というのは、基本的には分散を表します。(厳密にはもっと説明しなければいけないことがありますが、とりあえずはそう覚えておいてください)
標準偏差の公式
ルートの中は、基本的に分散と一緒です。分散をルートしたものが、標準偏差なんだなと覚えてください。こちらもsで表記します。
解答
- 平均 49
- 偏差平方和 1290
- 分散 129
- 標準偏差 11.35