jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

尤度を計算してみる(1)

今回は、尤度について考えます。尤度とは「観測されたデータが、こちらで仮定したモデルから生じたものだとするとそれがどの程度尤もらしいか」を測る指標です。「尤もらしさ」が抽象的で分かりにくいのですが、ある種の確率で表されるものと考えれば良いかと思います。

少し高度な回帰分析になると最尤法と呼ばれる推定方法で尤度が計算されます。普段、自分で計算することは全くないのですが、シンプルな例を利用してあえて自力計算することで尤度が表すもっともらしさとは何かを考えてみましょう。

そもそも「尤もらしさ」とは?

一言でいうなら確率です。ただし、数学で導入される確率が「物事が生じる程度」を表すものであるのに対して、「尤度」が指し示す確率はもう少し使い方が決まっています。尤度は、ある事象を説明するモデルにおいて、モデル内のパラメータをある値に決めた場合に、観測されたデータが観測し得る確率です*1

具体例:コイントスで表が上になる尤度

上記の説明は、わかっている人にはわかる説明になっている気がします。「事象」「モデル」「パラメータ」などがわからなければ何を言っているのかわかりません。そこで具体例を考えてみましょう。1枚のコインがあって、それを投げて、表が上になるか、裏が上になるか、いわゆるコイントスを考えてみましょう。ここでは、「事象」は「コインで表が上になる」としてみます。モデルですが、コインは表か裏のどちらかがでる*2ので、このような事象の確率を表すモデルとしてベルヌーイ分布を利用したモデルが考えられます。ベルヌーイ分布はひとまず置いておいて、コインが表か裏が上になるなら、表が上になる確率を0.5としてみましょう。これが「モデル」であり、「パラメータ」は「0.5」です。

コイントスを2回連続で行うときの尤度

話をもう少し進めてみます。コインを1回投げるだけなら、表が上でも裏が上でもどちらも確率は0.5です。では2回連続でコイントスをした場合はどうなるでしょうか。事象として「2回のうち1回で表が上」「2回とも表が上」「2回とも裏が上(つまり表が上は0回)」という3つの事象が考えられます。次にモデルですが、このような場合は二項分布という確率のモデルが利用できます。パラメータは先ほどと同じく、表が上の確率を0.5としてみましょう。すると、先ほどの3つの事象が起きる確率は、「2回のうち1回で表が上」が0.5, 「2回とも表が上」と「2回とも裏が上」はそれぞれ0.25となります。ここで実際に、コインを2回投げてみて、たまたま表と裏が1回ずつ出たならば、そのときの尤度は先ほどのモデルから考えて0.5ということになります。

ここまでのまとめ

今回は尤度について考えてみました。尤度とは尤もらしさ、確率であり、モデルのパラメータをある値にしたときの観察されたデータの観測確率です。次回は、この尤度を利用して、パラメータの値を推定する方法「最尤法」を考えてみます。

*1:他の使用用途もあるかもしれません。

*2:コインが立つという可能性もなくはないのですが、ここでは一旦無視します

2つの相関係数の使い分け

今回は2つの変数の関連性を表す指標である相関係数について、特に2種類の相関係数の使い分けという観点から考えてみます。

相関係数とは

相関係数は、2つの変数の大小関係の結びつき方(関連性)の方向と強さを表す指標です。大小関係の結びつき方という説明がいかにもわかりにくいのですが、一方の変数の値が大きくなればなるほど、他方の変数の値が大きくなるまたは小さくなるような関係のことです。

ピアソンの相関係数

ピアソンの相関係数はもっとも頻繁に使われる相関係数の指標です。以下のような式で求められます。
 r_{xy} =\frac{\sum_i^n{(x_i - \overline{x})(y_i - \overline{y}})}{\sum_i^n{(x_i - \overline{x})^2}*\sum_i^n{(y_i - \overline{y})^2}}

ピアソンの相関係数を使う際に気をつけることは、関連性を調べる2つの指標がどちらも連続量の性質をもち、さらに正規分布することを仮定していることです。

スピアマンの順位相関係数

スピアマンの順位相関係数を計算する際には、まずそれぞれの変数の得点を順位に変換します。その上で次の式を使います。
 \rho = 1 - \frac{6 \sum{D^2}}{N^3 - N}
ここでNは値のペア数、Dはそれぞれのペアの順位の差です。順位の差は二乗されているので、順位のズレ自体が蓄積されると考えれば良いでしょう。

スピアマンの順位相関係数には、分布に関する前提条件がありません。そもそもデータの元の値でなくて順位で計算しています。

2つの相関係数の違い

上記でも紹介しましたが、2つの相関係数では、扱うデータの種類が違います。ピアソンの相関係数では、変数の値そのものを利用します。一方、スピアマンの順位相関係数では、データの順位を利用します。

また、これらの相関係数を計算するための前提の有無に違いがあります。ピアソンの相関係数では、2つの変数はどちらも量的な変数で
正規分布に従うことを前提としています。一方、スピアマンの順位相関係数では、このような前提を作っていません。

どうやって使い分けるか

では、どうやって使い分けるかを考えてみましょう。重要なポイントは、上記のピアソンの相関係数の前提条件が満たされているかどうかですね。2つの変数がどちらも量的な変数で正規分布であれば、ピアソンの相関係数を使うのが良いでしょう。これが満たされないならばピアソンの相関係数自体は計算できても、解釈する意味がないと考えた方が良いと思います。

ところである変数がおおよそ正規分布にしたがっているかどうかを確かめる方法としてQ-Qプロットがあります。
Q-Qプロット*1では、2つの分布の偏りを調べることができます。どのようにするかというと2つの変数をそれぞれ値の大小で並べ替えて、一番小さい値のペア、次に小さい値のペアというように値の数だけペアを作り、そのペアを使って散布図を作成します。散布図がほぼ直線で示される場合には、2つの変数は同じような形状の分布を持っていると考えられます。以下の図に示すように、2つの変数のうちの1つを正規分布としてみましょう。すると、調べたい変数とのQ-Qプロットが直線的になるかどうかを調べれば、正規分布に近い分布形状をとっているのかを確かめられます。

f:id:jnobuyuki:20200626104306p:plain
Q-Qプロットの例 今回はどちらも正規分布からランダムサンプリングしたデータを用いています。図の中の直線でほぼ全てのデータを近似できるということから2つの分布がほぼ同じ形状であることを期待できます

Q-Qプロットで2つの変数が正規分布であると期待できればピアソンの相関係数を使って良いでしょう。

外れ値がある場合も要注意

外れ値のように分布に対して極端に大きいまたは小さい値が含まれている場合も、ピアソンの相関係数は影響を受けます。
例えば次の2つの変数の散布図を見てみましょう。

f:id:jnobuyuki:20200626112747p:plain

この図の例では、全体的に2つの変数に特に関連性が内容に見えます。でも、実際にピアソンの相関係数を計算してみるとr=.14になります。なぜ弱い正の相関があるような結果になるかというと、右上にポツンとある外れ値の影響です。これがあるだけで全体に正の相関があるような錯覚が生まれます。スピアマンの順位相関係数の場合は、外れ値と言っても単純に1番大きい値という風に計算されるだけなので、どれだけ他の値と離れていても計算結果が変わりません。実際スピアマンの相関係数を計算してみると-0.07になりました。こんな風に、ピアソンの相関係数はデータの細かい特徴に影響を受けやすいことを覚えておくと良いでしょう。

*1:Qはquantile「分位数」の意味です

QuickTime Playerで動画の再生スピードを変えたい

本日は、QuickTime PlayerについてのTipsです。最近、大学、高校でオンラインの授業が増えていたり、社会人もオンラインのコースで学ぶ機会が増えてきました。その際、動画を視聴する機会が数多くあると思います。今回はダウンロードした動画でも再生スピードをコントロールする方法を紹介します。

QuickTime Playerには再生スピードを変えるボタンがない?

動画で何か教育的な内容を視聴する際、話し手の話す速さが速すぎたり遅すぎたりすると感じることがあります。話し手からすると、見えない視聴者のための最適な話速をそもそも計算できないので、仕方のないことです。それでも、特に視聴時間を節約したいけど内容を最後までみたいときには少し早めに喋って欲しいと思ったりします。YouTubeなどのウェブ動画視聴では、再生速度をコントロールするボタンがあるので、それを少し上げて(1.25倍とか1.5倍)視聴すると、内容を損なわずに視聴時間を節約可能です。しかし、QuickTime Playerには再生・停止ボタンと巻き戻し、早送りボタンがあるのですが、微妙なコントロールをするボタンがありません。

optionを押しながら早送り・巻き戻しで再生スピードコントロール

調べてみたところ、キーボードのoptionキーを押しながら早送りをクリックすると再生スピードが1.1倍になることがわかりました。同じことを繰り返すごとに再生スピードが0.1倍増えていき最速で2.0倍まで再生スピードをあげることができました。同様にoptionキーを押しながら巻き戻しをクリックすると再生スピードが0.1倍ずつ下がっていきます。

f:id:jnobuyuki:20200615085849p:plain

児童虐待対応の2つの立場の違いを第1種の過誤と第2種の過誤で考える

久しぶりの投稿です。最近のニュース記事などで児童虐待への対応について児童相談所と裁判で異なる行動基準があるという議論を見かけました。
今回は、これを第1種の過誤と第2種の過誤という科学的な検証で想定される2種類の誤りという観点で考えてみます。

第1種の過誤

第1種の過誤は、統計的仮説検定で見られる誤りの1つです。統計的仮説検定では、本来主張したい内容とは逆の仮説(帰無仮説と呼ばれます)を設定し、取得済みのデータが帰無仮説を前提とした場合にどれほどありえないのかを確率で評価します。社会科学領域では、典型的に5%という確率の基準を設定することが多くて、取得データから得られた統計値が得られる確率が5%未満である場合に、帰無仮説に無理があると判断(棄却するという言い方をします)をします。ここで5%という基準が0%でないことが重要です。つまり、実際には帰無仮説を維持するのが適切な場合でも、データの偶然が重なって確率的に5%未満になってしまうことがあります。すると誤って帰無仮説に無理があると判断することになるわけです。この誤りを第1種の過誤と呼びます。

第2種の過誤

上では「誤って帰無仮説を棄却する」と言いましたが、これとは逆の誤り、つまり「誤って帰無仮説を棄却しない」こともあります。もっと簡単に言えば、本来主張したいことが適切であるにも関わらず、データ上それを見落とす場合です。これを第2種の過誤と言います。

2種類の過誤のトレードオフ

第1種の過誤と第2種の過誤。どちらも誤りだからなるべく減らして適切な判断をしたいところです。でも、第1種の過誤と第2種の過誤はいわゆるトレードオフの関係にあり、状況が同じなら、第1種の過誤を小さくしようとすることは、第2種の過誤が大きくなることを受け入れることを意味します。言い換えてみれば、帰無仮説を棄却する誤りを減らしたいので、本来の主張の証拠の見落としを受け入れるという感じです。そして、トレードオフの関係なので、第1種の過誤と第2種の過誤のどちらをより優先させるかの判断が必要になります。この判断が以下の話のポイントになります。

児童虐待の有無に関する仮定

話をわかりやすくするために児童虐待を事例にする場合の第1種の過誤と第2種の過誤を少し具体的にしておきます。児童虐待を見つけるのは、典型的とは思えない児童の様子が重要なヒントになることがあるでしょう。つまり、児童の典型的な様子からの逸脱がないというのが上記で挙げた帰無仮説になります(本当は虐待があるならそれを主張したいわけです)。よって、第1種の過誤は、「実際には虐待にはあたらないのに虐待があると判断すること」になります。また、第2種の過誤は「実際に虐待があるにも関わらず、典型的であるという判断を棄却しないために、それを見落とすこと」になります。

児童相談所の立場

では、児童相談所の所員の立場になって、2種類の過誤のトレードオフについて考えてみます。児童相談所にとってもっとも避けたいのは、虐待の見逃しです。つまり、第2種の過誤をなるべく少なくしたいという判断が働いています。よって、第1種の過誤の上昇については相対的に許容せざるを得ないと想像できます*1。虐待の可能性が疑われる場合には、可能な限り検証を進める過程で、違うことがわかればそれはそれで良いかもしれないです*2

司法の考え方

次に、警察や裁判所などの司法の立場で2種類の過誤のトレードオフを考えてみます。刑事裁判では「疑わしきは罰せず」という原則があるそうです。これは、司法として一番避けたいのは無実の罪、冤罪だと考えられます。これを虐待の例で考えれば、虐待でないものを虐待扱いすることをなるべく避けたいとなります。2種類の過誤で言えば、第1種の過誤をできるだけ抑えたいということです*3

2つの食い違いが作り出すもの

ここまでみてきたように、児童相談所と司法では2種類の過誤のトレードオフについて、異なる優先順位をとる可能性があることを考えてみました。仮にこれが正しいとすると、児童相談所と司法とでは、証拠の採用の仕方が若干異なるということも想像できます。児童相談所として疑わしい事例があり、それを司法と協力しながら解決したいとしても、司法の立場(冤罪を防ぎたいという観点)から確実な証拠による検証なしでは具体的なアクションを起こせないかも知れません。このような2つの組織の立場の違いを考慮すると、虐待という問題を扱う難しさや一見して、解決に必要以上に時間がかかっているように思えることにも一部説明がつくように思います。

*1:もちろんないに越したことはありません

*2:疑われたことによる風評被害のような物があるかも知れませんが、ここでは別の問題として触れません

*3:虐待が疑われる事例の保護についてはこの原則によっていないと予想・期待します。ここでは刑事事件扱いとして考えた場合の原則について考えています

社会科学の知見を社会に実装する

本日は研究の目標について考えてみたことを書きます。

研究者は何をする人か?

これは研究者によっても考え方に差があるものなので、私自身の考えで書きます。研究は科学のルールを使って「まだ誰も知らないことを明らかにすること」か「今の社会を改善、問題を解決」することだと思っています。特に「まだ誰も知らないこと」は問題の答えだけでなく、どんな問題があるかも明らかにすることを含んでいます。新しい発見があれば、または問題を解決する手法を見つければ「誰かが」それを利用して、社会を進歩させてくれるだろうというような見通しです。しかし、この「誰か」って誰なんだろうとふと疑問に思いました。

情報学の知見の社会実装

最近の情報学の研究者を見るとその「誰か」が「研究者自身」であると考えている人が多いようです。自分で開発した新技術を使ったサービスやプロダクトを自ら起業して、社会に浸透させていくのです。これに呼応しているのかはわかりませんが、政府系の大きな研究助成には、研究で得られた知見の社会実装が重要であると感じさせるコメントがちらほらみられます。近年の情報技術の革新のスピードはまさに日進月歩なので、ちょっと前まで大企業の大規模な設備でしか実現できなかったものが、個人でも実現できるようになっています。これは、研究で得られた知見を社会に実装する可能性も高めていると言えます。

研究者はどうやって研究の知見を社会実装すれば良いのか?

情報学以外の研究者だって、自らの研究で得られた知見を「誰かに」使ってもらえるまで待つのではなく、自ら社会に実装していく努力が必要になってきているのかなと感じています。ではどうやって、社会実装すれば良いのか。「仮説の検証」だけを考えてきた研究者にとっては新たな問題です。私自身が解決策になりそうだなと思っているのは「企業の力を借りること」だと思います。私は心理学の研究者ですが、心理学の場合、臨床心理学や産業心理学以外の分野はアカデミアに閉じこもる傾向があるように感じます。もっと企業の人たちに自らの発見をアピールする場(例えばビジネス向けの勉強会など)で話をして、どうやったら社会の改善に役立てられるかを相談してみら良いのではないでしょうか。企業の側も、アカデミアの先生が難しいことを言っていそうだと敬遠せずに、わからなければ「わからない」と言える関係を築けるように歩み寄って欲しいです。きっと互いにとって新たな方向性が見えてくるのではないかなと思っています。研究者としては、マインドセットを「仮説の検証」のみから「仮説の検証そして社会実装に向けた予測」に変えていくのが大事だと思います。

このブログの説明について

とっても柔らかい話。

このブログの説明

JavaScriptR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。」
もうすぐ累積PVが70万になろうとする段に来て、ふとブログの説明を見たらおかしさに気づきました。
JavaScriptR言語もwebアプリケーション技術なんだろうか?

というわけで説明を見直すことにしました。

JavaScriptR言語は確かに扱っています。ただ、これからはこれだけに縛られず、他の技術についても扱いたい。
そこで説明は、なんでこのブログを始めることにしたのかの原点に立ち返ることにしました。
それは「自分が困ったことは、自分と同じように困る人が他にもいるだろう。だからその人のためにメモを残したい」です。
ここでいう「その人」は、未来の自分が含まれています。同じように困った人にヒントになるようなメモ。
自分がこういうのが欲しいわけなので、これを残していきます。

改訂版このブログの説明

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。

学習心理学から考えたポモドーロテクニックの改善法

今回は、学習心理学について復習した際に思いついた、作業の効率について書きます。

 

ポモドーロテクニックとは

作業への集中と休憩を時間できちんと決めることで効率化を図る方法です。ライフハックの一種ですね。やり方としては、30分を1つの作業時間枠として、最初の25分間、単一の作業に集中します。残りの5分は休憩時間です。次の25分間はまた別の単一作業に没頭します。あれもこれもやりたくて同時並行に作業していると、結局作業のスイッチのコストが増してしまいがちです。このテクニックを使えば、作業のスイッチを減らせるので、その分効率があがるわけです。

こちらのブログにも紹介があります。


juncollin.hatenablog.comjuncollin.hatenablog.com


 

学習心理学に出てくる強化スケジュールについて

次は学習心理学について紹介します。学習心理学では、報酬による行動の強化という考え方があります。何かしらの望ましい行動を偶然行った時にすかさず報酬を与えると、その行動が次に起きやすくなるという考えです。1回の行動ごとに1回報酬を与えても良いのですが、ある程度行動が強化されたところで、何回かに1回のみ報酬を与えるようにするとさらに行動を強化できるとされています。では、どんなタイミングで報酬を与えると良いのでしょうか。学習心理学の教科書では、4つの方法が「強化スケジュール」という用語で紹介されています。ポイントは2点で、報酬のタイミングを行動の頻度に基づいて計算するか時間に基づいて計算するかという点と、報酬のタイミングが予測できるか否かという点です。

予測可能 予測不可能
頻度に基づく 固定比率スケジュール 変動比率スケジュール
時間に基づく 固定間隔スケジュール 変動間隔スケジュール

これらの強化スケジュールは、強化の程度やパターンがそれぞれ異なります。特徴として、固定スケジュールにすると、報酬を与えた直後の行動がそれほど高まりません。「次の報酬がすぐには得られないこと」も学習してしまうからだと思います。一方、変動スケジュールでは、報酬直後でも同じようなペースで行動が見られます。また、比率(頻度)に基づく強化の方が、時間に基づく強化よりも行動が強化されやすいことも知られています。

ポモドーロテクニックを変えてみよう

ポモドーロテクニックは時間に基づく学習で、どれくらいの時間作業するかはあらかじめ知られています。つまり、上記の強化スケジュールのうち固定間隔スケジュールの一種と考えられます。作業の内容はいつでも単純なわけではないので、過度な一般化には注意が必要です。しかし、効率を高める可能性として、時間の予測のできないポモドーロテクニックというのも考えられます。これによって、作業時間の中での作業効率のムラが減少して、さらに効率が高まるかもしれません。