jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

オープンデータを用いたデータの可視化

今回は、公開されているデータを利用して、仮説検証型のデータの可視化をやってみます。

きっかけ

Google及川卓也氏のブログで、先日、興味深いブログ記事を目にしました。

地方自治体公式サイトのスマートフォン対応 - Nothing ventured, nothing gained.

記事では、地方自治体ウェブサイトのモバイル対応状況が都道府県ごとにまとめられています。モバイル対応の有無は、及川氏自らがそれぞれのウェブサイトを検証した結果のようです。データを見てみると、モバイル対応の状況は都道府県でばらばらです。全体の5%程度に留まる県から、全体の半数以上にのぼる県まであります。

これほどのばらつきには何か理由があるのでしょうか?及川さんもこの疑問を持っているようで「本当は人口や世代別人口だとかスマートフォン普及率だとかとの相関も見てみたかったのだが、それは折を見てまた。」と述べています。

同じような興味・疑問を持ったので、及川さんのデータのフォローアップとして、データの可視化を試みようかと思いました。及川さんに相談したところ、快く元データを提供してくださいました。では、他のオープンデータと関連付けて分析してみたいと思います*1

仮説・アイデア

地方自治体がウェブサイトをモバイル対応にするきっかけ・影響しそうなことがらとして、今回は以下の2点の影響を調べることにします。

特に、最初の「人口」については、都道府県と各自治体のそれぞれを単位とした分析をやってみます。

人口が多いとモバイル対応が進むか?

都道府県の人口*2を横軸、モバイル対応率を縦軸とした場合の両者の関係は以下のようになりました。ちなみにモバイル対応率は、

モバイル対応している市町村数 ÷ すべての市町村数

としました。

全体的に右肩上がりの傾向が見られます。つまり、人口の多い都道府県ほど、モバイル対応している地方自治体が多いようです。これは、予測通りといえます。ただし、最もモバイル対応率の高い徳島県茨城県にはこれが当てはまりません。図の中の少し大きめの〇で書かれている2つの県は、人口からは予測できないほど高い水準のモバイル対応を実現しています。どうしてこうなるのかは分かりませんが、非常に面白いと思います。

さて、もし人口が多いほどモバイル対応率が高いのなら、市町村を分析の単位にしても同じような結果が出てくるはずです。そこで、今度は市町村データ*3を元に、人口とモバイル対応の関連性を調べてみます。ここで、一つ気を付けたいのは、市町村人口の分布です。日本の1741市町村のうち約3分の2は人口5万人未満で、比較的人口が少ない自治体が非常に多くあります。それがよくわかるのが下の図です。この図は、各市町村を人口順に並べてからプロットしています。図では、右端の部分で急に人口が増加しているように見えます。この急に増えている部分がいわゆる大都市です。その数は、全体からすると非常に少ないです。

このような分布に偏りのあるデータを分析するため、ちょっと変わったやり方を用います*4。まず、1741ある市町村を人口順に並べて、グループ内の市町村数が等しくなるように20グループに分割します。こうすると各グループは人口規模のほぼ等しい市町村で構成されます。そして、各グループでモバイル対応している市町村としていない市町村の数を数えてプロットしたのが次の図です。

図を見てわかるのは、つまり人口規模の大きいグループ(横軸の右に行くほど人口規模の大きいグループです)ほど、モバイル対応の市町村の割合(全体に占める青の割合)が増えていることです。もう少し詳しく見ると、全体の半分より上のグループは、半分より下のグループよりもモバイル対応が進んでいることと、最も人口の多い2つのグループ(つまり上位10%の市町村)は、それ以外のグループよりもモバイル対応率が高いことが分かります。つまり、市町村を分析の単位とした場合にも、人口とモバイル対応の関連性を見ることができました。

スマートフォン普及率*5が高いとモバイル対応が進むか?

次に、スマートフォン普及率を横軸、モバイル対応率を縦軸とした場合の両者の関連性を示します。

この分析では、非常に緩い右肩上がりの傾向が見られます。つまり、スマートフォン普及率が高い都道府県では、若干モバイル対応が進んでいるようです。さらに、人口とモバイル対応の分析と同様に、徳島県茨城県は今回も外れ値のような位置に現れています。

どうして人口を指標としたときと同じような結果が出てくるのでしょう。実は、人口とスマートフォン普及率に割と高い正の関連性があります。つまり、一見したところでは、スマートフォン普及率とモバイル対応率の関連性があるように見えるのですが、その裏で人口という別の要因が影響している可能性があります。

まとめ

以上の分析から、地方自治体ウェブサイトのモバイル対応が、その自治体の人口と関連していることがわかりました。ただし、それでは全く説明のつかない徳島県茨城県のような高い対応率を達成した自治体もあります。地方自治体ウェブサイトのモバイル対応をさらに進めていくには、徳島県茨城県の事情の把握が役立つのかもしれませんね。また、こういったオープンデータ同士を結びつけて、仮説やアイデアの検証ができるというのも勉強になりました。




*1:研究者と入っても、今回の話題は、完全に専門外です。つめが甘いところはご容赦ください

*2:平成22年国勢調査のデータを使用しています。http://www.stat.go.jp/data/kokusei/2010/kihon1/pdf/gaiyou2.pdf

*3:住民基本台帳に基づく人口、人口動態及び世帯数(平成25年3月31日現在)を利用しています。 http://www.soumu.go.jp/menu_news/s-news/01gyosei02_02000055.html

*4:Vincent, S. B. (1912). The function of the viborissae in the behavior of the white rat. Behavioral Monographs, 1(5).で紹介されているVincentile Plotと呼ばれる手法を参考にしています。

*5:平成24年の都道府県別インターネット利用率を利用しています。http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h25/html/nc243120.html