jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

データリテラシー向上のためのブートストラップは何か?

今回は、統計や確率、データ解析についてもっと理解し、理解してもらうためのヒントについて考えてみます。最初に言いますが、結論はないです。

確率や統計の学習は難しい

統計やデータは確率という目に見えない概念を論理的、数学的に扱う必要があります。しかも日常的には使わないような論理の展開をすることがあります。例えば、統計学の主な手法の1つに統計的仮説検定があります。これは、言いたいこととは逆の仮定をわざわざ作って、それをさらに否定することで元の主張の正しさを示そうとします。日常生活でそんな面倒なことはしないので、これが自然に身につくというのは考えにくいです。それでも諦めずに使おうと努力しているといつか、使えるようになります。いったん身につければ、それほどの苦労もなく、統計に潜む論理やその実践方法が理解できます。問題はどうやって使いこなせるようになるかです。今回はブートストラップという考え方からこの問題を考えてみましょう。

ブートストラップって何?

ブートストラップというのは、ブーツを履くときに引っ張る紐もしくはつまみです。自分自身で自分を高く上げるという意味で比喩的に用いられます。*1
例えば、ことばの発達ではいろいろなブートストラップ仮説が提案されています。というのも、ことばの学習は
誰もが経験したことでありながら、その学習メカニズムはよくわかっていません。ことばがわからない人にことばで
ことばの使い方を教えても(ややこしいですね)学習は進まないように思えます。でも赤ちゃんは、周りの会話から
単語の意味や文法を見つけていつのまにか使いこなせるようになります。そこで何かしら、自分自身でことばに関する
能力を上げる仕組み、つまりブートストラップがあるのではないかと考えるわけです。例えば、文の抑揚(音の上がり下がりや強弱のリズム)なんかが連続した音声から単語の音の塊を見つけるのに役立つのではないかと言われています。

データリテラシー向上につながるブートストラップ

さて、統計や確率を効率良く理解するためのブートストラップにはどんなものがあるでしょうか。個人的な直感として提案します。

身近な例に頼る?

統計学の教科書にはよく用いられる例があります。二項分布ならコイン投げ(表が出るか裏が出るか)がよく例として用いられます。一様分布ならサイコロを振る例があります。正規分布は、身長や体重がよく使われると思います。これらの例そのものの理解は確かに簡単なのですが、人は日常生活でそんなにコイン投げたりしないし、サイコロも振ったりしないし、周りの人と身長を比べたりもしないですよね。そういう意味ではもっと自分が実際の日常生活にある事例を用いるべきです。例えば、中高生にとって、偏差値70以上を取るのには非常な努力がいるものだし、どんなに怠けていても偏差値30までは下がらないという確かな感覚を持っています。偏差値は、分布として平均50、標準偏差10の正規分布が仮定されています。確率として、偏差値70以上もしくは30以下になるのは全体の5%程度です。正規分布の性質を説明するときには、偏差値を例として挙げることで、「確率的にどれくらいありえないか」ということばの意味をよく理解してもらえると思います*2

生命の生き残りに関連した話題?

生き物はおそらく自分の生命を維持することに対して注意がむきやすいと考えらえるので、これを利用します。例えば統計パッケージ言語のRでは最初から組み込まれているデータセットがいくつかあって、その1つにタイタニック号に乗っていた人の残存数データがあります。どの客室に泊まっていたか、大人か子供か、男性か女性かなどの属性によって、生き残った人の数が違うので、自分の直感にあっているかどうかをこのデータセットを使いながら生存の確率を検証していくことができるかもしれません。

*1:解析手法のブートストラップ法というのもありますがこの意味ではないかもしれないです。

*2:先日紹介した結城浩先生の「数学ガールの秘密ノート やさしい統計」でも偏差値の例が扱われています