読者です 読者をやめる 読者になる 読者になる

jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

データの散らばりは誤差にも情報にもなる

今回は、統計を使い始めの人が「ややこしい」と感じそうな話です。

データの散らばりとは

社会科学でも自然科学でも何かデータをとって(難しい言葉使いだと「実証的」)、そのデータから自分の考えを主張したい場合があります。このときデータは、2回以上測ります。なぜかというと、測るたびに値が異なる場合がほとんどだからです。測るたびに値が違う理由にはいろいろあって、「測る条件が毎回微妙に異なる」「測定装置の精度の限界」「実は全く違う条件が混ざっている」などなどです。そして、2回よりももっとたくさん測ることで、データは分布として考えることができます。

データの分布を表す3要素

データの分布は「形」「位置」「散らばり」で特徴付けられます。

「形」

形は全体的な形です。代表的な確率分布である正規分布は左右対称の山形です。サイコロの目の1から6がどの程度の頻度で出現するかというような場合には一様分布が想定されます。

「位置」

位置はその分布が測定に使う指標の中でどこに位置しているかを示します。正規分布だったら、その真ん中の値で代表とします。これは分布の平均値に対応します。

「散らばり」

散らばりは、データの出方が毎回どの程度異なるかを示します。分散や標準偏差といった指標が使われます。これらの指標が大きいほど、平均値からずれの大きいデータがたくさんあることを示しています。

散らばりは誤差です

上の説明にあるように、分散や標準偏差が大きい場合は、平均値からのずれが大きいことを示しています。例えば、ある測定条件やあるグループについて、1つの数でその性質を説明する場合に平均値を使うことが良くあります。しかし、実際には、全員が平均値と同じ値をとっているわけではありません。それでも、その条件やグループの測定を全て同じとみなして、1つの点で表現しています。これを逆に考えれば、散らばりの大きさはその1つの点の確からしさに影響していて、散らばりが大きいほど、1点で表現するのに無理があるようにも見えます。つまり、散らばりの大きさが誤差の大きさに対応しています。

散らばりは情報にもなります

上で述べてきたように、分散や標準偏差は平均値からのずれの指標です。これらの値が大きいほど、一つ一つの値の異なりが大きいとも考えられます。値の異なりが大きければ、それらを簡単に区別できます。こんな風に考えると、散らばりが大きい方が、一つ一つの個体の違いが良く分かると言えます。個体の違いを表すものは個体の情報なので、散らばりそのものが情報の量に対応しているというわけです。例えば、入学試験での合否の判定や順位付けなどではこの考え方が活きてくるので、ばらつきが大きい試験の方が、受験者の能力を判定する上でよいテストとなります。

まとめ:味方によって誤差にも情報にもなる

以上でみてきたように、個体ごとのデータの散らばりはときには誤差として、小さいほどよいものとなります。その一方で、データの散らばりを情報とする見方も可能で、この場合は大きいほどよいものとなります。いずれにしても散らばりの程度を適切に評価していくことが重要です。