jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

児童虐待対応の2つの立場の違いを第1種の過誤と第2種の過誤で考える

久しぶりの投稿です。最近のニュース記事などで児童虐待への対応について児童相談所と裁判で異なる行動基準があるという議論を見かけました。
今回は、これを第1種の過誤と第2種の過誤という科学的な検証で想定される2種類の誤りという観点で考えてみます。

第1種の過誤

第1種の過誤は、統計的仮説検定で見られる誤りの1つです。統計的仮説検定では、本来主張したい内容とは逆の仮説(帰無仮説と呼ばれます)を設定し、取得済みのデータが帰無仮説を前提とした場合にどれほどありえないのかを確率で評価します。社会科学領域では、典型的に5%という確率の基準を設定することが多くて、取得データから得られた統計値が得られる確率が5%未満である場合に、帰無仮説に無理があると判断(棄却するという言い方をします)をします。ここで5%という基準が0%でないことが重要です。つまり、実際には帰無仮説を維持するのが適切な場合でも、データの偶然が重なって確率的に5%未満になってしまうことがあります。すると誤って帰無仮説に無理があると判断することになるわけです。この誤りを第1種の過誤と呼びます。

第2種の過誤

上では「誤って帰無仮説を棄却する」と言いましたが、これとは逆の誤り、つまり「誤って帰無仮説を棄却しない」こともあります。もっと簡単に言えば、本来主張したいことが適切であるにも関わらず、データ上それを見落とす場合です。これを第2種の過誤と言います。

2種類の過誤のトレードオフ

第1種の過誤と第2種の過誤。どちらも誤りだからなるべく減らして適切な判断をしたいところです。でも、第1種の過誤と第2種の過誤はいわゆるトレードオフの関係にあり、状況が同じなら、第1種の過誤を小さくしようとすることは、第2種の過誤が大きくなることを受け入れることを意味します。言い換えてみれば、帰無仮説を棄却する誤りを減らしたいので、本来の主張の証拠の見落としを受け入れるという感じです。そして、トレードオフの関係なので、第1種の過誤と第2種の過誤のどちらをより優先させるかの判断が必要になります。この判断が以下の話のポイントになります。

児童虐待の有無に関する仮定

話をわかりやすくするために児童虐待を事例にする場合の第1種の過誤と第2種の過誤を少し具体的にしておきます。児童虐待を見つけるのは、典型的とは思えない児童の様子が重要なヒントになることがあるでしょう。つまり、児童の典型的な様子からの逸脱がないというのが上記で挙げた帰無仮説になります(本当は虐待があるならそれを主張したいわけです)。よって、第1種の過誤は、「実際には虐待にはあたらないのに虐待があると判断すること」になります。また、第2種の過誤は「実際に虐待があるにも関わらず、典型的であるという判断を棄却しないために、それを見落とすこと」になります。

児童相談所の立場

では、児童相談所の所員の立場になって、2種類の過誤のトレードオフについて考えてみます。児童相談所にとってもっとも避けたいのは、虐待の見逃しです。つまり、第2種の過誤をなるべく少なくしたいという判断が働いています。よって、第1種の過誤の上昇については相対的に許容せざるを得ないと想像できます*1。虐待の可能性が疑われる場合には、可能な限り検証を進める過程で、違うことがわかればそれはそれで良いかもしれないです*2

司法の考え方

次に、警察や裁判所などの司法の立場で2種類の過誤のトレードオフを考えてみます。刑事裁判では「疑わしきは罰せず」という原則があるそうです。これは、司法として一番避けたいのは無実の罪、冤罪だと考えられます。これを虐待の例で考えれば、虐待でないものを虐待扱いすることをなるべく避けたいとなります。2種類の過誤で言えば、第1種の過誤をできるだけ抑えたいということです*3

2つの食い違いが作り出すもの

ここまでみてきたように、児童相談所と司法では2種類の過誤のトレードオフについて、異なる優先順位をとる可能性があることを考えてみました。仮にこれが正しいとすると、児童相談所と司法とでは、証拠の採用の仕方が若干異なるということも想像できます。児童相談所として疑わしい事例があり、それを司法と協力しながら解決したいとしても、司法の立場(冤罪を防ぎたいという観点)から確実な証拠による検証なしでは具体的なアクションを起こせないかも知れません。このような2つの組織の立場の違いを考慮すると、虐待という問題を扱う難しさや一見して、解決に必要以上に時間がかかっているように思えることにも一部説明がつくように思います。

*1:もちろんないに越したことはありません

*2:疑われたことによる風評被害のような物があるかも知れませんが、ここでは別の問題として触れません

*3:虐待が疑われる事例の保護についてはこの原則によっていないと予想・期待します。ここでは刑事事件扱いとして考えた場合の原則について考えています

社会科学の知見を社会に実装する

本日は研究の目標について考えてみたことを書きます。

研究者は何をする人か?

これは研究者によっても考え方に差があるものなので、私自身の考えで書きます。研究は科学のルールを使って「まだ誰も知らないことを明らかにすること」か「今の社会を改善、問題を解決」することだと思っています。特に「まだ誰も知らないこと」は問題の答えだけでなく、どんな問題があるかも明らかにすることを含んでいます。新しい発見があれば、または問題を解決する手法を見つければ「誰かが」それを利用して、社会を進歩させてくれるだろうというような見通しです。しかし、この「誰か」って誰なんだろうとふと疑問に思いました。

情報学の知見の社会実装

最近の情報学の研究者を見るとその「誰か」が「研究者自身」であると考えている人が多いようです。自分で開発した新技術を使ったサービスやプロダクトを自ら起業して、社会に浸透させていくのです。これに呼応しているのかはわかりませんが、政府系の大きな研究助成には、研究で得られた知見の社会実装が重要であると感じさせるコメントがちらほらみられます。近年の情報技術の革新のスピードはまさに日進月歩なので、ちょっと前まで大企業の大規模な設備でしか実現できなかったものが、個人でも実現できるようになっています。これは、研究で得られた知見を社会に実装する可能性も高めていると言えます。

研究者はどうやって研究の知見を社会実装すれば良いのか?

情報学以外の研究者だって、自らの研究で得られた知見を「誰かに」使ってもらえるまで待つのではなく、自ら社会に実装していく努力が必要になってきているのかなと感じています。ではどうやって、社会実装すれば良いのか。「仮説の検証」だけを考えてきた研究者にとっては新たな問題です。私自身が解決策になりそうだなと思っているのは「企業の力を借りること」だと思います。私は心理学の研究者ですが、心理学の場合、臨床心理学や産業心理学以外の分野はアカデミアに閉じこもる傾向があるように感じます。もっと企業の人たちに自らの発見をアピールする場(例えばビジネス向けの勉強会など)で話をして、どうやったら社会の改善に役立てられるかを相談してみら良いのではないでしょうか。企業の側も、アカデミアの先生が難しいことを言っていそうだと敬遠せずに、わからなければ「わからない」と言える関係を築けるように歩み寄って欲しいです。きっと互いにとって新たな方向性が見えてくるのではないかなと思っています。研究者としては、マインドセットを「仮説の検証」のみから「仮説の検証そして社会実装に向けた予測」に変えていくのが大事だと思います。

このブログの説明について

とっても柔らかい話。

このブログの説明

JavaScriptR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。」
もうすぐ累積PVが70万になろうとする段に来て、ふとブログの説明を見たらおかしさに気づきました。
JavaScriptR言語もwebアプリケーション技術なんだろうか?

というわけで説明を見直すことにしました。

JavaScriptR言語は確かに扱っています。ただ、これからはこれだけに縛られず、他の技術についても扱いたい。
そこで説明は、なんでこのブログを始めることにしたのかの原点に立ち返ることにしました。
それは「自分が困ったことは、自分と同じように困る人が他にもいるだろう。だからその人のためにメモを残したい」です。
ここでいう「その人」は、未来の自分が含まれています。同じように困った人にヒントになるようなメモ。
自分がこういうのが欲しいわけなので、これを残していきます。

改訂版このブログの説明

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。

学習心理学から考えたポモドーロテクニックの改善法

今回は、学習心理学について復習した際に思いついた、作業の効率について書きます。

 

ポモドーロテクニックとは

作業への集中と休憩を時間できちんと決めることで効率化を図る方法です。ライフハックの一種ですね。やり方としては、30分を1つの作業時間枠として、最初の25分間、単一の作業に集中します。残りの5分は休憩時間です。次の25分間はまた別の単一作業に没頭します。あれもこれもやりたくて同時並行に作業していると、結局作業のスイッチのコストが増してしまいがちです。このテクニックを使えば、作業のスイッチを減らせるので、その分効率があがるわけです。

こちらのブログにも紹介があります。


juncollin.hatenablog.comjuncollin.hatenablog.com


 

学習心理学に出てくる強化スケジュールについて

次は学習心理学について紹介します。学習心理学では、報酬による行動の強化という考え方があります。何かしらの望ましい行動を偶然行った時にすかさず報酬を与えると、その行動が次に起きやすくなるという考えです。1回の行動ごとに1回報酬を与えても良いのですが、ある程度行動が強化されたところで、何回かに1回のみ報酬を与えるようにするとさらに行動を強化できるとされています。では、どんなタイミングで報酬を与えると良いのでしょうか。学習心理学の教科書では、4つの方法が「強化スケジュール」という用語で紹介されています。ポイントは2点で、報酬のタイミングを行動の頻度に基づいて計算するか時間に基づいて計算するかという点と、報酬のタイミングが予測できるか否かという点です。

予測可能 予測不可能
頻度に基づく 固定比率スケジュール 変動比率スケジュール
時間に基づく 固定間隔スケジュール 変動間隔スケジュール

これらの強化スケジュールは、強化の程度やパターンがそれぞれ異なります。特徴として、固定スケジュールにすると、報酬を与えた直後の行動がそれほど高まりません。「次の報酬がすぐには得られないこと」も学習してしまうからだと思います。一方、変動スケジュールでは、報酬直後でも同じようなペースで行動が見られます。また、比率(頻度)に基づく強化の方が、時間に基づく強化よりも行動が強化されやすいことも知られています。

ポモドーロテクニックを変えてみよう

ポモドーロテクニックは時間に基づく学習で、どれくらいの時間作業するかはあらかじめ知られています。つまり、上記の強化スケジュールのうち固定間隔スケジュールの一種と考えられます。作業の内容はいつでも単純なわけではないので、過度な一般化には注意が必要です。しかし、効率を高める可能性として、時間の予測のできないポモドーロテクニックというのも考えられます。これによって、作業時間の中での作業効率のムラが減少して、さらに効率が高まるかもしれません。
 

 

研究方法を学ぶ重要性とそこで終わらない重要性

今回は具体的な方法論ではなく、研究方法のとらえ方について書いてみます。

研究方法を学ぶ重要性

研究をしてみたいと思ったら、まずは過去の研究を読んでみたり、関連する話題を研究している研究者に質問したりして、研究方法を学びましょう。研究方法を覚えることは、言わば「研究の型」を覚えるようなものだと思います。この研究の型は多くの研究で使用されており、その中で型として洗練されてきたので、これを使うメリットがあります。これに加えて、その型を示すだけで、どんなことが行われたのかを他の研究者に教えられます。つまり、研究の型を覚えることは、一見何をして良いのかわからない研究の道を照らし出す案内役であると同時に、科学的なコミュニケーションをスムーズにする役割も持つと言えるでしょう。

研究方法の「意味」を考える

上記のような便利さと重要性を持つ研究方法ですが、ただ覚えてそれを使うだけでは研究を先に進められません。なぜなら研究では常に新しい問題を探し検討するため、学んだ研究方法ては対処できないかもしれないからです。ではそれをどうやって見極めれば良いのか?まず学んだ研究方法が「なぜその方法になったのか」を考えてみましょう。おそらく方法として確立されるための暗黙の仮定や前提が思いついてくるでしょう。そしてその仮定や前提が新たな問題に適用可能かを考えることで、方法の限界や改善につながると思うのです*1

まとめ

今回は研究方法を学ぶ重要性とその意味についてしっかり考えることの重要性について書きました。私も含めて皆でよく考えながら、科学を進めていきましょう。

*1:レアケースだと思いますが、研究の勘所がはじめから分かっているなら特定の方法論に縛られる必要がないかもしれません。

評価という手段を目的にしてしまうと教育に何が起きるか

今回は,とても抽象的なことを書きます。自分としてもまだ問題の整理が完全に済んでいないので,これを書きながら少しでも整理できたものが残せればいいなと祈りながら書き始めます。

教育における評価の機能

様々な教育場面において,しばしば評価が行われます。最も一般的なのは,学習後の成果を調べるための評価でしょう。これは,事後評価または総括的評価と呼ばれます。しかし,教育評価はこれだけではありません。例えば,学習前に学習者の知識や能力を測定することがあります。これは事前評価または診断的評価です。また,教育評価は学習中にも行われます。学習者が,予め定められた目標に近づいているかどうかを探るための評価で,形成的評価と呼ばれています。総括的評価が,成績や科目単位の付与,資格の認定など,学習者個人に対する評価になっているのに対し,診断的評価や形成的評価は,学習する内容の調整に使われます。

評価はあくまでも手段

最近の教育評価では,評価基準の透明性を高めること(言い換えれば,先生の気まぐれで評価基準がぶれないこと)が求められています。これ自体は,評価の公平性や妥当性を考える上で大変重要です。しかし,評価は学習目標を達成することを確認するための手段に過ぎません。教育の目的・目標は学習者の学びを最大化することであって,高い評価を得ることではないことに注意が必要です。

評価を目的にすると何が起きるのか

上記のような,手段としての評価についての議論は,当たり前のことです。しかし,最近の教育評価の透明化は,学習者そして教員にも評価そのものを強く意識させるという効果も持っており,「以下に良い評価を得るか」「以下に良い評価を与えるか」に意識が向いてしまいがちであると感じます。つまり,当たり前が当たり前でなくなってきているとうことです。高評価を作りたいだけなら,自分に学んだ内容があるように感じられなくても,相手が好印象・高評価をつけやすい文言で学習内容を報告すればよいわけです*1。高評価を得られたとしても,その評価に値するような学びが生じにくい可能性が出てきたと思います。これは私自身もそうであって,ときどき何のために評価をしているのかを見直す必要性を感じています。

ではどうすればよいのか

まず,なぜこれが可能になるのかを考えてみたいと思います。私自身はこれをコミュニケーションの問題だと捉えています。どういうことかというと,本来主観が大事な学びにおいて,評価者の考えそうなことを学習者が予測していると感じられるのです。それは日常のコミュニケーションで頻繁に生じており,話し手は,聞き手の気持ちや考えを予想しながら自らの発言を調整することがあります。仮に,学習者が話し手,評価者が聞き手と考えてみましょう。話し手である学習者は,自分の思ったことを思ったとおりに報告するのではなく,学習という状況と評価者の考えそうなことを予測しながら報告内容の調整をしているかもしれない。それによって高評価が得られると信じれば,これは当然です。さらに言えば,評価者は,学習者の報告を文字通りに受け取らずに,報告内容から学習者が何を考えているのかを予測しなければならない事態となります。このような考えが正しければ,ある種の先の読み合いには果てがないので,学習者と評価者のコミュニケーションは非常に複雑なものになっていっていくでしょう。ではどうすればよいか。これを回避する一手段として,評価と学びの内容を分離が考えられます。例えば,評価の対象とはなっていないことを確認した上で,自らの正直な学びに関する意識を教員に報告してもらう。そこには,「面倒くさい」とか「学ぶ意味がわからない」とか「ありきたりでつまらない」といった教員をがっかりさせるような言葉があるかもしれません。しかし,それはそれとして互いに認めた上で,学びの最大化に挑戦する。そんな過程の築くことがこの問題の自体改善につながるのでないかと思います。

*1:もちろんそれすら難しい場合もあります。

検定力(検出力)の求め方

今回は,当たり前に思っていたことが実はそんなことなかったという話です。

検定力とは何か?

私達が,観察したデータについて,そのデータを取得した大元の集団について考えたいときがあります。そのようなときには統計的仮説検定の手続きにのっとって,推論を行います。統計的仮説検定では,自らが主張したい内容を対立仮説として設定し,それの逆の内容を帰無仮説とします。計算過程では,あえて帰無仮説が正しいと想定した上で,手持ちのデータが帰無仮説の内容に合致するかどうかを確率的に判断します。この確率的に判断するところが,大事であり,難しいところです。典型的には5%が基準になっており,得られたデータが帰無仮説を基準に観察される確率がこの基準未満ならば「あり得ないことがおきた」と考え,ありえないのはなぜかというと帰無仮説に無理があったからだと判断します。5%というのは,100回同じような検定をすれば,その100回の中に帰無仮説を否定できるような真実が一切なかったとしても,5回位は誤って,帰無仮説を否定する危険性があります。これを第一種の誤りと呼ぶことがあります。これと全く逆の話として,実際には帰無仮説を棄却することが正しいにもかかわらず,それをしないという判断になることもあります。いわゆる効果や差異の見落としです。先程の第一種の誤りと対比されて,第二種の誤りと呼ばれます。研究をしていれば,できるだけ,真実に近いことを明らかにしていきたいわけですが,確率を基準に判断している以上,実際には帰無仮説が正しいのに,否定してしまったり,帰無仮説を否定すべきなのに見落とすことがあるわけです。ここまでを表にまとめると次のようになります。

帰無仮説が正しい 帰無仮説は誤り
帰無仮説を否定しない 正しい判断 見落とし(第二種の誤り)
帰無仮説を否定する 誤った否定(第一種の誤り) 正しい判断

正しい判断というのが2つあります。このうち,右下の場合になる確率が,検定力です。

どのように検定力を求めるのか?

検定力は,帰無仮説を棄却すべきときに,正しく棄却している確率です。つまり,帰無仮説を棄却するということを前提に話を進める必要があります。帰無仮説を棄却するには,検定統計量の帰無分布や棄却域を考えます。サンプルをもとに推定した帰無分布の標準偏差を考えると信頼上限や信頼下限を計算可能で,それよりも検定統計量が大きくなると帰無仮説が棄却されるわけです。以下の図は,帰無仮説が正しい場合の検定統計量の分布で,ピンクの領域が棄却域になる確率(つまり有意水準)になっています。

f:id:jnobuyuki:20190114054452j:plain
帰無仮説から考えた検定統計量の分布と有意水準


つぎに,サンプルから推定した検定統計量もとに検定統計量の分布を構成してみます。そして,帰無分布上の信頼区間の限界との関係を見てみましょう。すると,検定統計量は,それ以上低くなると,その分布が正しいにもかかわらず,帰無仮説を棄却できない状態が
表現できます。

以下の図の右側の分布が,サンプルから推定した検定統計量の分布です。その分布の左側の水色部分が帰無仮説を棄却できない確率を示しています。

f:id:jnobuyuki:20190114054638j:plain
帰無仮説から考えた分布とサンプルから推定した分布

この裏を返せば,その検討統計量よりも高い値がある場合には,その分布が正しく,帰無仮説を正しく棄却した場合になります。よってこれが検定力といえます。

以下の図の右側の分布の緑色の部分が検定力に相当します。

f:id:jnobuyuki:20190114054738j:plain
有意水準と第二種の謝りと検定力

ここで大事なのは,検定力を求めるために,帰無仮説の棄却という過程を経ていることです。棄却には当然,有意水準が関わります。そしてそれは,第一種の誤りの確率を示しています。つまり,第二種の誤りとその裏返しとしての検定力を考える際に,第一種の誤りを切離して考えることはできないのです。統計学の教科書に,第一種の誤りと第二種の誤りはトレードオフ(つまりどちらかを低くしようとすると,他方が高くなる)ので,両者を同時に低くすることはできないと説明されていることがありますが,その理由がここにあります。

実は真逆の表現がある

今回,この記事を書くにあたって,いくつかの統計学やデータ分析に関する書籍をあたってみています。その中で発見した驚きを報告します。それは,検定力を1−とβと表現する本βと表現する本の二種類があることです。さらにいろいろな人に話を聞く中でわかってきたのは,どうも数理統計学の領域では検定力をβと表現することがあるようです。この場合,第二種の誤りが1−βとなります。先程の統計的帰無仮説をベースにする説明では,2種類の誤りについて考えましたが,検定力をベータとするのは,有意差有りと判断した上で,それが誤りの場合と正しい場合という方針で考えられています。ここで大事なのは,どちらが正しい・適切かを考えるのではなく,人によっては真逆の表現をとっている可能性があるということです。学問領域をまたいだ共同研究を行うときには,この点を慎重に確認した上で議論すると良いと思います。