jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

尤度を計算してみる(1)

今回は、尤度について考えます。尤度とは「観測されたデータが、こちらで仮定したモデルから生じたものだとするとそれがどの程度尤もらしいか」を測る指標です。「尤もらしさ」が抽象的で分かりにくいのですが、ある種の確率で表されるものと考えれば良いかと思います。

少し高度な回帰分析になると最尤法と呼ばれる推定方法で尤度が計算されます。普段、自分で計算することは全くないのですが、シンプルな例を利用してあえて自力計算することで尤度が表すもっともらしさとは何かを考えてみましょう。

そもそも「尤もらしさ」とは?

一言でいうなら確率です。ただし、数学で導入される確率が「物事が生じる程度」を表すものであるのに対して、「尤度」が指し示す確率はもう少し使い方が決まっています。尤度は、ある事象を説明するモデルにおいて、モデル内のパラメータをある値に決めた場合に、観測されたデータが観測し得る確率です*1

具体例:コイントスで表が上になる尤度

上記の説明は、わかっている人にはわかる説明になっている気がします。「事象」「モデル」「パラメータ」などがわからなければ何を言っているのかわかりません。そこで具体例を考えてみましょう。1枚のコインがあって、それを投げて、表が上になるか、裏が上になるか、いわゆるコイントスを考えてみましょう。ここでは、「事象」は「コインで表が上になる」としてみます。モデルですが、コインは表か裏のどちらかがでる*2ので、このような事象の確率を表すモデルとしてベルヌーイ分布を利用したモデルが考えられます。ベルヌーイ分布はひとまず置いておいて、コインが表か裏が上になるなら、表が上になる確率を0.5としてみましょう。これが「モデル」であり、「パラメータ」は「0.5」です。

コイントスを2回連続で行うときの尤度

話をもう少し進めてみます。コインを1回投げるだけなら、表が上でも裏が上でもどちらも確率は0.5です。では2回連続でコイントスをした場合はどうなるでしょうか。事象として「2回のうち1回で表が上」「2回とも表が上」「2回とも裏が上(つまり表が上は0回)」という3つの事象が考えられます。次にモデルですが、このような場合は二項分布という確率のモデルが利用できます。パラメータは先ほどと同じく、表が上の確率を0.5としてみましょう。すると、先ほどの3つの事象が起きる確率は、「2回のうち1回で表が上」が0.5, 「2回とも表が上」と「2回とも裏が上」はそれぞれ0.25となります。ここで実際に、コインを2回投げてみて、たまたま表と裏が1回ずつ出たならば、そのときの尤度は先ほどのモデルから考えて0.5ということになります。

ここまでのまとめ

今回は尤度について考えてみました。尤度とは尤もらしさ、確率であり、モデルのパラメータをある値にしたときの観察されたデータの観測確率です。次回は、この尤度を利用して、パラメータの値を推定する方法「最尤法」を考えてみます。

*1:他の使用用途もあるかもしれません。

*2:コインが立つという可能性もなくはないのですが、ここでは一旦無視します