jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

p値とは何なのか?

今回は、統計学の知識があまりない人向けの記事にしようと思います。昨今のデータが社会中に溢れている環境では、データから上手に自分の知りたい情報を抜き出せるかどうかが重要だと思います。その時に、統計学に基づいた意思決定やデータの解釈を行うのが良さそうに見えます。そこでデータ分析が必要になるわけですが、自分自身に統計学の知識がなければ、他の人に分析をお願いすることもあるでしょう*1。今回は統計用語をできるだけ使わずに、でも統計学の知識の使い方に関するイメージをお伝えしたいと思います*2

p値のpは?

pは確率、probabilityを表しています。確率なので、pは0から1の値をとります。

何の確率なの?

ここがとても理解しにくいところです。まずは、これが「ある仮定の元で現在手にしているデータが観察される」確率と考えましょう。確率が高いということは、その仮定の元で今持っているようなデータが出てきやすいということを意味します。一方、確率が低いということは、その仮定の元では今持っているデータが出てくることがほとんどないよと解釈できます。

どのくらいの確率を「低い」としているの?

これは研究分野にもよりますが、社会科学に関連する研究分野では5%とすることが多いです。5%よりも低ければ、その仮定の元で今持っているデータが出現する確率が十分に低いと判断します。

「低い」から何なの?

ある仮定のもとで今持っているデータが出てくる確率が十分に低い。しかし、実際にそのデータを持っているわけです。ここから、元の仮定自体が誤りであるとした方が自然ということになります。なので、ある仮定はなかったことにします。

ところで「ある仮定」って何?

理解しにくいポイントその2です。実は、調べている人が主張したいことと逆の仮定をおいています。例えば、2つのグループに何かの得点差があると主張したい場合に、あえてその逆の「2グループの得点には差がない」という仮定を立てます。

上述したようにこの仮定のもとで実際のデータの出現確率を調べる場合、2つのグループの差は小さい確率は高いです。しかし、ある程度大きな差がある場合、そのような確率は低いと考えられます。ここで、「2つのグループの得点に差がない」という仮定に無理があると判断してなかったことにするわけです。この結果、2つのグループの得点には偶然ではあり得ないような差があると主張できることがとても重要です。

p値って低ければ低いほど良いの?

これは、難しい質問で、上述したようにp値が有意水準よりも低いかを調べているので、一見低ければ低いほど良さそうです。しかし、この考え方は推奨されていないどころかやめた方が良いとまで言われています*3。あくまでもあらかじめ設定した確率よりも低いかどうかだけを判断した方が良いです。

*1:社会人を念頭に置いています。学生の皆様。必要な事柄は自分で勉強しましょう

*2:なので統計学者の方。詳細な定義や考え方に多少の問題はあるかと思いますがあくまでイメージとしての理解なのでご容赦ください

*3:https://amstat.tandfonline.com/doi/full/10.1080/00031305.2016.1154108#.Yc25fRPP124