jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

2つの相関係数の使い分け

今回は2つの変数の関連性を表す指標である相関係数について、特に2種類の相関係数の使い分けという観点から考えてみます。

相関係数とは

相関係数は、2つの変数の大小関係の結びつき方(関連性)の方向と強さを表す指標です。大小関係の結びつき方という説明がいかにもわかりにくいのですが、一方の変数の値が大きくなればなるほど、他方の変数の値が大きくなるまたは小さくなるような関係のことです。

ピアソンの相関係数

ピアソンの相関係数はもっとも頻繁に使われる相関係数の指標です。以下のような式で求められます。
 r_{xy} =\frac{\sum_i^n{(x_i - \overline{x})(y_i - \overline{y}})}{\sum_i^n{(x_i - \overline{x})^2}*\sum_i^n{(y_i - \overline{y})^2}}

ピアソンの相関係数を使う際に気をつけることは、関連性を調べる2つの指標がどちらも連続量の性質をもち、さらに正規分布することを仮定していることです。

スピアマンの順位相関係数

スピアマンの順位相関係数を計算する際には、まずそれぞれの変数の得点を順位に変換します。その上で次の式を使います。
 \rho = 1 - \frac{6 \sum{D^2}}{N^3 - N}
ここでNは値のペア数、Dはそれぞれのペアの順位の差です。順位の差は二乗されているので、順位のズレ自体が蓄積されると考えれば良いでしょう。

スピアマンの順位相関係数には、分布に関する前提条件がありません。そもそもデータの元の値でなくて順位で計算しています。

2つの相関係数の違い

上記でも紹介しましたが、2つの相関係数では、扱うデータの種類が違います。ピアソンの相関係数では、変数の値そのものを利用します。一方、スピアマンの順位相関係数では、データの順位を利用します。

また、これらの相関係数を計算するための前提の有無に違いがあります。ピアソンの相関係数では、2つの変数はどちらも量的な変数で
正規分布に従うことを前提としています。一方、スピアマンの順位相関係数では、このような前提を作っていません。

どうやって使い分けるか

では、どうやって使い分けるかを考えてみましょう。重要なポイントは、上記のピアソンの相関係数の前提条件が満たされているかどうかですね。2つの変数がどちらも量的な変数で正規分布であれば、ピアソンの相関係数を使うのが良いでしょう。これが満たされないならばピアソンの相関係数自体は計算できても、解釈する意味がないと考えた方が良いと思います。

ところである変数がおおよそ正規分布にしたがっているかどうかを確かめる方法としてQ-Qプロットがあります。
Q-Qプロット*1では、2つの分布の偏りを調べることができます。どのようにするかというと2つの変数をそれぞれ値の大小で並べ替えて、一番小さい値のペア、次に小さい値のペアというように値の数だけペアを作り、そのペアを使って散布図を作成します。散布図がほぼ直線で示される場合には、2つの変数は同じような形状の分布を持っていると考えられます。以下の図に示すように、2つの変数のうちの1つを正規分布としてみましょう。すると、調べたい変数とのQ-Qプロットが直線的になるかどうかを調べれば、正規分布に近い分布形状をとっているのかを確かめられます。

f:id:jnobuyuki:20200626104306p:plain
Q-Qプロットの例 今回はどちらも正規分布からランダムサンプリングしたデータを用いています。図の中の直線でほぼ全てのデータを近似できるということから2つの分布がほぼ同じ形状であることを期待できます

Q-Qプロットで2つの変数が正規分布であると期待できればピアソンの相関係数を使って良いでしょう。

外れ値がある場合も要注意

外れ値のように分布に対して極端に大きいまたは小さい値が含まれている場合も、ピアソンの相関係数は影響を受けます。
例えば次の2つの変数の散布図を見てみましょう。

f:id:jnobuyuki:20200626112747p:plain

この図の例では、全体的に2つの変数に特に関連性が内容に見えます。でも、実際にピアソンの相関係数を計算してみるとr=.14になります。なぜ弱い正の相関があるような結果になるかというと、右上にポツンとある外れ値の影響です。これがあるだけで全体に正の相関があるような錯覚が生まれます。スピアマンの順位相関係数の場合は、外れ値と言っても単純に1番大きい値という風に計算されるだけなので、どれだけ他の値と離れていても計算結果が変わりません。実際スピアマンの相関係数を計算してみると-0.07になりました。こんな風に、ピアソンの相関係数はデータの細かい特徴に影響を受けやすいことを覚えておくと良いでしょう。

*1:Qはquantile「分位数」の意味です