jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

「数学ガールの秘密ノート やさしい統計」の感想(1)

今回は、統計学を扱った書籍の感想を2回に分けて述べたいと思います。タイトルでわかる通り、数学ガールの関連書籍で、メインのシリーズというよりは中高生向けのシリーズと認識しています。
そう、著者は結城浩先生です。書評というよりデータリテラシーとのつながりを考えた上での感想です。ガール的な要素のネタバレはしないように心がけますが、各章の概要には触れますので、ご注意ください。

結城先生は統計学をどう扱うのか?

この本を読む前の最大の興味は、結城流の統計学紹介とはどんなものなのかでした。読んでみてわかったのですが、この本は「数学ガール(と僕)からみた統計学の世界」が描かれています。中高生向けのシリーズの1冊として執筆されているのだから当然とも言えますが、このレベル設定が非常に良いと感じました。なぜなら「世間一般の認識」にとても近いと思うからです。もう少し具体的なイメージとしては、「中学、高校は割と理系だったが、大学で統計学関連の科目を取っていない、取らなかった人」です。このような人たちのデータリテラシーを向上させられれば、データがもっと社会で利用されるようになると思います。

第1章 「グラフのトリック」

第1章はグラフで表す便利さとトリッキーさの話です。グラフの作り方ではなく、グラフでどうやって嘘をつくのかに注目しているところがポイントですね。そして、グラフの表面的なメッセージを安易に受け取るのではなく、自分で考える(解釈する)ことが大事なんだと教えてくれています。社会全体のデータリテラシーが向上するには、これがとても大事だと思っているので、このメッセージに非常に共感しました。

第2章 「平らに均す平均」

第2章はいわゆる記述統計量のまとめになっています。平均、中央値、最頻値の3つの代表値に加えて、最大値、最小値、そして分散とデータの特徴を示す指標が一通り扱われています。あとはこれに四分位かパーセンタイルをつけたい気もします。いろいろな用語を出し過ぎて、混乱を招かないようにといった配慮がなされているのかもしれません。あとは、代表値の使い分けについても多少述べられていますね。ここでも、使い分けるためには「何のために代表値を求めるのか」をよく考えようというメッセージを感じます。

第3章 「偏差値の驚き」

第3章は分散(とその平方根をとった標準偏差)を計算する意味から正規分布が紹介されるまでになっています。実例として「偏差値」があげられています。確かに高校生って偏差値に馴染みのある年頃なので、これを使わない手はないですよね。ただし、一般的なデータの扱いへとつなげるためには偏差値ではなく、「標準偏差何個分か」という標準化の考え方ができた方がいいです。この点もしっかり意識されているところがすばらしいと思いました。

一気に読めたのがここまでなので、前半はここまでにします。