では,前回のイントロにつづいて具体的に2つほど数式を見ていきましょう。
まずは平均
平均値の計算は,直感的にも,計算手続きも親しみがある方が多いと思うので,これをとりかかりにしてみましょう。
まず,直感的な理解としては,あるデータの集まりの中での中間的な値,良くありそうな値という漠然とした考えがあると思います。
計算手続きとしては,データを構成する要素を全て足して,データの個数で割るという手続きは理解しやすいのではないでしょうか。
これを数式で示すと以下のようになります。
この数式だと,一番厄介そうなのがですね。これはここに上がっているものを全て足し合わせる記号です。がデータの各要素なので,上で書いた計算手続きの中の「要素を全て足して」という部分に対応します。この式では,データがn個あると想定しており,分母のnが「データの個数で割る」という部分に対応しています。こうして考えてみれば,ちょっとややこしそうに見える数式でも足し算と割り算しかやっていないことがわかると思います。
つぎは分散
分散は,データの散らばりの程度を表す指標です。データの平均は,中間的な値しかわからず,平均に近いところにデータが密集しているのか,それとも平均から遠い位置にもデータが散財するのかがわかりません。分散はそれを表現してくれます。
では数式を見てみましょう。
平均に比べると複雑なので,部分に分けて見ていきます。
ここはデータの各要素からデータの平均値を引いています。いってみればデータの各値と平均値との距離をあらわしています。計算として,平均値は上に書いたとおり,足し算と割り算でできています。そして引き算をしたことになりますね。
カッコの中は上と全く同じです。2乗がついたことで,掛け算をすれば良いということになります。ここで,カッコの中がプラスの値でも,マイナスの値でも,2乗するとプラスの値になることが大事です。
先程も出てきたΣ記号は,上の計算結果を全て足し合わせる記号です。
そして,平均と同じように最後にn(つまりデータの個数)で割り算をしています。
ここまでで足し算,引き算,掛け算,割り算すべて出てきましたね。そして,それ以上の計算は出てきませんでした。分散は平均ほどなじみのない指標かもしれませんが,計算としては四則演算ができれば,簡単に計算できることがこれでわかります。
平均と分散には共通の手続きがある
上で書いた平均と分散の計算手続きについてもう一度見てみると,2つの指標はどちらも「計算結果を全て足し合わせ」て,「データの個数で割る」としていました。計算手続きが同じということは,その計算が意味するところも似たようなものかもしれません。計算結果を全て足して,データの個数で割るという手続きは,計算結果の中間的な答えを示しています。平均の場合には,データ要素の中間的な値でした。では,分散ではどうでしょう。計算結果は,データの要素からデータの平均を引いたもの2乗したものです。これは,各データが平均の値からどれくらい離れているかを示しています。なので,分散が示す散らばりとは平均からの距離の中間的な値を示していると理解できます。
以上のように,計算手続きを分解しながら詳しく見てみたことで,分散がどんな指標なのかを確認することができました。次回は,別の指標を数式をもとに考えてみたいと思います。