読者です 読者をやめる 読者になる 読者になる

jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

統計学の用語のややこしさ(1)

今回は、統計学やデータリテラシーで使われる用語のややこしさについて書いてみたいと思います。

## 統計学の用語
どんな専門領域でもその領域で通じる用語というものがありますよね。細かい言い回しを一言でまとめられれば、話の進みが早くてすみます。ただし、その用語を正しく理解していないと思わぬ誤解が生じてしまう可能性もあります。統計学も専門用語を駆使する領域の一つなのですが、独特のややこしさがあるように感じています。それは「専門用語にもかかわらず、同じ内容を違う表し方をする」ということです。一般に、専門用語は定義が存在するので、違う用語があれば、違い意味・用法で使われるだろうと考えがちですが、統計学やデータリテラシーではほぼ同じ内容を表すのに違う表現になることがあります。

なぜこうなるかというのを考えてみました。原因の一つはおそらく、統計学を利用する人の専門性の違いです。例えば心理学とか生物学とか経済学などの分野では典型的な表現が異なることがあります。そのほかの原因として、研究者による用語の再定義も考えられます。ある理論を提唱する統計学者は同様の内容も違う単語で再定義し、自分の理論内では、一貫してその用語を使っているということがあるように思えます。本人は一貫していたとしても、別の理論で同じ内容が異なる用語で呼ばれているのは混乱の元です。

## 変数の性質を表す用語
同じ内容を異なる表現で表す例として、変数の性質に関する表現があります。変数の性質、例えば、その変数の量は足し算や引き算が可能が不可能かなどです。これは、現象の理解や適切な統計手法の選択に関わる重要な事柄ですが、それを表す用語は様々です。

  • 量に関して、足し算や引き算が出来るようなもの: 量的変数、数量データ、間隔尺度データ、連続変数、連続量
  • 量に関して、足し算や引き算ができないもしくは無意味なもの:質的変数、質的データ、名義尺度データ、カテゴリー変数、カテゴリーデータ

この二つの区別は、非常に大事なのにもかかわらず、それぞれ表現がいろいろあります。文脈に応じて使い分けることもあるかもしれませんが、ほとんどの場合において、ある表現は、別の表現へと入れ替え可能です。このことを覚えておくと、ある本と別の本では、同じような内容が別の表現を取られているのを見た場合、細かい違いを探さずに、「まあ大体同じ内容のようなので、表現のちがいだけだな」ととりあえずの理解をできます*1統計学というと数学の一部なのだから、がちがちの定義が並んでいるんだと思いがちですが、初学のうちはあまり悩まずにいろいろな記述を読み進めるというのも大事なように思います。

*1:あとになってから「実はぜんぜん違う意味だった」ということもあるでしょう