jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

R言語を利用して分散説明率と効果量fの関係を図示する

久しぶりのブログ記事です。今回は統計の話をします。

検定の効果量

何かの現象の原因を突き止めたい場合に、実験や調査で3つ以上の条件の間に、偶然と呼ぶには大きすぎる差があるかどうかを検証する方法として分散分析があります。この分析では、サンプルサイズが大きくなるほど小さな条件差でも、偶然とは言えなくくらいに差が大きいと判断される(統計的に有意といういい方をします)傾向が高まります。一方、この分析から計算可能な効果量と呼ばれる指標があり、これを調べると、差の大きさそのものがある程度評価できます。

効果量は便利で、例えば異なる研究での効果量を比較できます。ただし、効果量は何十も指標があって、分析によって典型的に用いられる指標が異なります。例えば1要因の分散分析だと分散説明率( η^2と呼ばれます)や分散説明率から計算可能なfという指標があります。

分散説明率

平たく言えば、調べている要因でデータ全体のばらつきの何割くらいを説明可能かを表す指標です。R言語で一要因の分散分析を行ったら、出力結果のRsquaredというところにこの分散説明率が書かれています。

効果量f

効果量fも一要因の分散分析で典型的に用いられる効果量の1つです。以下の式のように、分散説明率と残差(調べている要因では説明しきれないデータのばらつき)から効果量を推定します。

 \sqrt{\frac{分散説明率}{ (1 - 分散説明率)}}

 η^2と効果量fの違いは?

2つの効果量が提案された経緯は、文献を直接あたってみるべきだと思いますので、関連ありそうな文献を紹介します。

Amazon.co.jp: Statistical Power Analysis for the Behavioral Sciences: Jacob Cohen: 洋書


ここでは、二つの指標の関係をプロットした結果から、簡単に考えてみます。

f:id:jnobuyuki:20150426071815p:plain

グラフの横軸は分散説明率(ただし0から0.7まで)、縦軸はそれに対応する効果量fの値です。グラフの中の丸は左からそれぞれ小さい効果、中程度の効果、大きい効果の目安となる分散説明率と効果量fを表しています。
さて、二つの指標は直線で表せるならば、どちらの効果量を利用しても良さそうな気がします。しかし、グラフを見ていただいてわかるように、効果量fは、分散説明率が低いうちは、高めの値が出るようになっています。そして、推奨される効果量の目安は、まさに効果量fが高めに計算される範囲ででてきます。

ここからは、私見というか邪推です。つまり効果量fは、分散説明率の低い(もっと平たく言うとノイズが多くなりがちな研究)で有効なように思います。なぜなら、数値の大きさを比べるときに、スケールの引き伸ばされた(グラフで言えばズームインでしょうか)効果量fで見る方がわかりやすい気がするからです。もちろん、目安となる値は、分散説明率と効果量fで本質的に同じですので、これは「そんな気がする」程度のことかもしれません。ただし、異なる研究の間で、効果量を比較するときには、分散説明率と効果量fの間に非線形の関係があることは気にした方がいいかもしれません。