読者です 読者をやめる 読者になる 読者になる

jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

一般

サンプルサイズが条件ごとに異なる一要因分散分析

今回は、一要因分散分析について考えます。典型的な教科書では、分散分析の条件ごとのサンプルサイズが揃っている場合を扱います。もしも条件ごとのサンプルサイズが大きく異なる場合はどんな問題に気をつければよいかを見てみましょう。ちなみに似たような…

R言語での変数の型確認の重要性(1)

今回は、R言語で統計解析を学び始めた人にとって分かりにくい点について書きます。 Rの変数オブジェクトは型宣言しないが、型がある Rは、統計パッケージアプリケーションという捉え方と、データ処理のためのプログラム言語という捉え方があります。後者に関…

三平方の定理で理解する回帰分析における分散の分解

今回は、回帰分析の細かいモデルの話を中学校で習う「三平方の定理」を利用して考えてみます。 最小2乗法による推定 回帰分析では、最小2乗法という計算方法で、回帰直線をひくための2つの推定値(切片と傾き)を決めます。何を最小にするかというと実際に…

相関と回帰は何が違うか?

今回は、相関分析と回帰分析は何が違うのかを考えます。 相関と回帰の共通点、類似点 相関分析と回帰分析はどちらも、2つの連続量変数(数量型データ)の関係を調べるために行います。ここでの「連続量変数」とは、単に数字で表したデータという意味ではな…

アクセス数の合計が200,000を超えました!ありがとうございます!

本日は、ご報告とお礼です。本ブログのアクセス数の合計が200,000を超えました。前回のご報告でアクセス数100,000突破が今年2016年2月のことでしたので、1年かからずに100,000アクセスをいただいたことになります。 最近のアクセス傾向 これまでのアク…

データリテラシー向上のためのブートストラップは何か?

今回は、統計や確率、データ解析についてもっと理解し、理解してもらうためのヒントについて考えてみます。最初に言いますが、結論はないです。 確率や統計の学習は難しい 統計やデータは確率という目に見えない概念を論理的、数学的に扱う必要があります。…

RStudio バージョン1.0でインタラクティブな解析

今回は、R言語を便利に操作するためのアプリケーションRStudioについてです。いよいよバージョン1.0になったRStudioにできた新機能を試してみます。 Rmarkdownファイルを利用した解析(旧バージョン) RStudioの便利機能の一つにRmarkdownファイルによる解析…

「数学ガールの秘密ノート やさしい統計」の感想(2)

今回も「数学ガール秘密ノート やさしい統計」の感想を書きたいと思います。 第4章 「コインを10回投げたとき」 この章では、コインの表が出るか裏がでるかという2つの事象の確率を2項分布で明らかにしていきます。「数学ガール」では、問題への取り組…

「数学ガールの秘密ノート やさしい統計」の感想(1)

今回は、統計学を扱った書籍の感想を2回に分けて述べたいと思います。タイトルでわかる通り、数学ガールの関連書籍で、メインのシリーズというよりは中高生向けのシリーズと認識しています。 そう、著者は結城浩先生です。書評というよりデータリテラシーと…

統計学の用語のややこしさ(2)

前回に引き続き、今回も統計学の用語で「言い方が違うのに指している内容は同じ」ものを紹介します。## 回帰分析の原因と結果に関する変数の名前 統計学で利用される分析方法の1つに回帰分析があります。回帰分析では、ある事柄の程度を示す数値を予測する…

統計学の用語のややこしさ(1)

今回は、統計学やデータリテラシーで使われる用語のややこしさについて書いてみたいと思います。## 統計学の用語 どんな専門領域でもその領域で通じる用語というものがありますよね。細かい言い回しを一言でまとめられれば、話の進みが早くてすみます。ただ…

大学生への教育を教員による「知的なクローニング」と考えてみる

今回は、大学教育というか教育一般について思うことを書きます。 学生は何を学ぶんだろう? 近年、学生による能動的な学びを促す仕組みが含まれる教授法をアクティブラーニングと呼び、大学をはじめとする高等教育機関で試行錯誤が続いています。学生がぼー…

データの散らばりは誤差にも情報にもなる

今回は、統計を使い始めの人が「ややこしい」と感じそうな話です。 データの散らばりとは 社会科学でも自然科学でも何かデータをとって(難しい言葉使いだと「実証的」)、そのデータから自分の考えを主張したい場合があります。このときデータは、2回以上…

2要因の分散分析での交互作用効果と単純主効果検定の関係

今回は、2要因の分散分析をするときの交互作用と単純主効果について説明します。ややこしい話題ですが、具体的なストーリーで説明して、ちょっとでもわかりやすくと思っています。 想定例:学生の専門分野による文章内の図表の挿入効果の違い 今回は、ある…

多重共線性によって重回帰分析の推定は不安定になる(のはなぜか?)

今回は、回帰分析を実用する上で気をつけたい問題の1つである多重共線性について考えます。 多重共線性って? 回帰分析では、一つの従属変数(予測される変数)に対して一つ以上の独立変数(予測する変数)を構成して予測モデルとします*1。このとき、予測…

研究者とは何をする人か?それに必要な資質は?

今回は、「研究者って何か?」を考えます。一応研究者であるので、職業としての研究者や自分の経歴を紹介する機会があります。しかし、先日のそのような機会では、そもそも研究者が何かをうまく語れなかったんです。なので、反省文も兼ねて、研究者やその資…

学会・研究会における保育サービスについて思うこと

今回は、子育て世代研究者あるあるのような話題で、それについて思うことを書きます。 学会における保育サービス 学会や研究会において、子連れでの参加を促すために保育サービスが提供されることがあります。子育て世代の研究者にとって、このサービスはそ…

10万PVになりました。ありがとうございます。

今回は、このブログを見てくださった皆様へのお礼です。 100,000PV 100,000PVは、このブログを始めた時、そして始めてしばらくの間には考えもつかなかった数字です。しかも2014年11月に10,000pv達成だったので、1年1〜2ヶ月の間に指数的にpvが伸びています。…

卒論でよく言われる「まだ検討されていない」研究テーマについて思うこと

大学の卒業論文の季節ですね。今回は、卒業論文でよく見られる表現について考えたことを書きます。 科学が目指すもの 科学が目指すものは「新たな知の獲得」です*1。今まで誰も知らなかったことを調べてみて、面白い結果が得られたらそれを皆で共有します。…

統計学を通して見える世界

今回は、統計学に基づいた研究の意義や世界の見え方について思うことを書きます。 研究にとっての統計的仮説検定というツール 研究では、何らかのアイデア(仮説と呼びます)が、実際に何かの現象をうまく説明できたり、何かに役立ったりすることなどを検証…

子供が使うPCのスペック

今回は、タイトルの内容について思ったことをただそのまま書いてみたいと思います。 予算だけを言えば、できるだけ抑えたい PCの価格は常に下がり続けています。以前なら30万円を超えるような PCと同等性能のPCが10万円、場合によってはそれ以下で購入で…

書評「新米探偵データ分析に挑む」

今回は、Rに関する書籍の書評に挑戦してみます。 石田基弘(著)「新米探偵データ分析に挑む」 こちらです。 Amazon CAPTCHAこの書籍は、ライトノベルとR(正確にはRStudio)を利用した統計解析の解説が一つになっています。 主人公の田中くんは、探偵事務所…

文系と理系の溝

本日は文系と理系の間にあると感じられる溝について考えてみたいと思います。 文系と理系の違い まず、文系と理系の違いについて簡単に考えてみます。下世話な言い方をすれば、これは高校における科目履修の違いです。どれだけ自然科学系の科目(数学や理解…

調べてみたら予想と違ったときに思うこと

最近はずっとR言語に関するまとめが続いたので、たまには単純に考えたことを書きます。 予想が外れるのは「失敗」か? 研究に関する色々な過程の中でも一番楽しいのは、実験や調査によって収集したデータを解析し始める瞬間です。「ああかもしれない」「こう…

データハンドリングはスクリプトを利用して

欠損値や外れ値の設定、数量データをカテゴリーデータに変換、データの並べ方の変更などいわゆるデータハンドリングについて思うところをまとめておきます。 データハンドリングは、データ解析のなかでも最も大事 今更強調して言うことでもないかもしれませ…

オープンデータを用いたデータの可視化

今回は、公開されているデータを利用して、仮説検証型のデータの可視化をやってみます。 きっかけ Googleの及川卓也氏のブログで、先日、興味深いブログ記事を目にしました。地方自治体公式サイトのスマートフォン対応 - Nothing ventured, nothing gained.…

統計解析上達のポイント(3)

前回までで、2回ほど統計解析を使いこなすポイントについての私的な考えを述べてきました。最後に、統計解析を学ぶ上でのポイントを2点ほど紹介します。 分からないことは人に聞こう 特に、仮説の検証のために統計解析を利用していると「これでいいのか?」…

統計解析上達のポイント(2)

前回に続いて、統計解析上達のポイントとして、統計解析を利用する目的について考えてみましょう。 統計解析の目的 統計解析には大きく分けて、記述統計と推理統計があります。記述統計では、データについての数量的性質を述べることを目的とします。一方、…

統計解析上達のポイント(1)

先日、統計に関する勉強会を聴いていたら次のようなお願いをされました。 「統計が苦手という文系の学生のために、統計解析上達のポイントを一言でコメントしてほしい。」正直に言うと、なかなか一言でというのは難しいなと感じました。そこで、即席のスライ…

読者参加型のメタ分析

この記事は Data Visualization Advent Calendar 2014 - Qiitaの9日目の記事です。 最近、心理学実験のデータをまとめていた研究者と一緒に可視化ツールを作成したので、それを紹介します。 概要 メタ分析とは何か? InPhonDBプロジェクト 可視化ツールの特…

エビデンスベースの世の中になるために必要なものは何か?

誰かに何かを主張したいとき、相手に納得してもらう手段はいろいろあります。最近のビックデータ解析の流行は、そんな説得の手段の一つになれるでしょうか。ビックデータ解析のようないわゆるエビデンスに基づく主張が社会に根付くかを考えていた時に気づい…

このブログのアクセス数が10,000になりました

リピーターの方も初めての方も、このブログを閲覧いただきありがとうございます。このブログのアクセス数が10,000を越えました。きりのいいところで、このブログのあり方をまとめます。 アクセス数の変化について 昨年の12月の末からブログを始めました。お…

多言語対応したウエブページで使う強調

今回は、多言語対応したウエブページで単語をどのように強調するかを考えます。個人のブログでは、多言語使用はほとんど問題にならなそうですが、多言語の文章をいかに等しく表現するかという問題として考えると面白いので、メモ代わりに書いてみます。 多言…

ビッグデータ解析と統計的帰無仮説による検証の関係

今日は、昨今大変注目を集めているビッグデータについて思うところを述べてみます。というのは、こんな記事がFBの拡散で届いたからです。 http://googleenterprise-ja.blogspot.jp/2014/09/google-bigquery.html これのソース記事はこちらです。 Towards Psy…

データの感覚化 Data Sensitization

今回は、Data Visualizationに関連した話です。ただ、私自身もまだ整理しきれていない考えです。この投稿はメモ代わりと言ってもいいかもしれません。 Data Visualization データビジュアリゼーション、つまりデータの視覚化です。表計算ソフトにずらっと並…

Googleドキュメントで変更履歴を残しながら文書を編集

昨日のニュースでGoogleが、Chromebookの日本販売を開始すると聞きました*1。ChromebookはChromeOSを利用しており、PCの中にソフトをインストールするというよりも、クラウド上のウエブアプリケーションをつかうという考え方で設計されています*2。こういう…

単語のつづりの記憶(2):なぜ英語の綴りの記憶が難しいのか?

英語の綴りを途中でいったん止めて、続きをつなげて書くよりも、最初から書きなおす方が簡単であるという話の続きです。今回は、特に英語の単語の綴りを覚える際に、綴りより運動の記憶に頼りがちであるかを考えてみましょう。 文字と音韻の対応関係の明瞭さ…

単語の綴りの記憶(1):綴りの記憶は文字の並びの記憶か?

今回は、ある知り合いが「英語のスペルをどうやって記憶するのか」という疑問をSNS上に提示したことに対するコメントです*1。投稿では、英語のスペルをタイプするときに、途中で一度止めてしまうと、その続きを思い出すよりも、初めからタイプし直す方が多い…

パスツールの象限(4):名無しの象限

さて、前回パスツールの象限(3)までで、Stokesの提案した2次元モデルを見てきました。今回が取りあえずの最終回。『パスツールの象限』を読んだ私の感想を述べます。 パスツールの象限は画期的 基礎と応用は2分して考えるのが当たり前と思っていた私にと…

パスツールの象限(3):2次元モデル

前回の投稿では、従来の基礎と応用の研究を1次元的に考える場合の不都合を紹介しました。Stokesは新たな提案として2次元モデルを提案しています。 2次元モデル これまで、基礎と応用は、研究を位置づける直線上の両極端と考えられてきました。これをStokesは…

パスツールの象限(2):基礎と応用の中間

前回、科学研究には、基礎と応用の2種類があることを紹介しました。このような枠組みは、かなり長い間、国家、産業界、学会のいずれにとっても安定していて、自明のことのように思われてきました。しかしStokesは、この枠組みに含まれる矛盾を指摘しています…

パスツールの象限(1):2種類の科学

前回、科学者とそうでない人が考える研究の目的に隔たりがあることを書きました。どうしてそのような隔たりができてしまうのかを、2種類の科学という視点から考えます。 基礎と応用:2種類の科学 一般的に、科学研究は「基礎研究」と「応用研究」に分けて考…

パスツールの象限(0):科学研究への期待

今回から、何回かに分けて、Stokesという人が1997年に書いた『パスツールの象限(Pasteur's Quadrant)』という本の内容を紹介します。 本を読んで考えたことは、既に The empty cell in the quadrant model of scientific research in Stokes (1997). - jnob…

学習経験の功罪

今回は学習経験について考えてみます。 様々な学習 私たちは、日々、何かを学習しています。例えば英単語の学習では、日本語と英語の対応付けを学習します。また、補助なしの自転車の乗り方を覚えるのも学習です。このような学習は、意図的・意識的な学習と…

The empty cell in the quadrant model of scientific research in Stokes (1997).

Today, I am going to introduce a little old but still inspiring book written by Stokes (1997). The title of the book is the Pasteur's Quadrant. Basic and applied research In this book, the author explained differences between basic and app…

質問はなんのためにするのか?

今回は、学校の授業や学術会議、講演会での質問について考えます。 みんな質問で悩んでる この問題には本当にたくさんの人が悩まされているようです。「会議 質問」でウェブ検索すると、質問のコツを伝授してくれるサイトが読みきれない程見つかります。実際…

研究における「車輪の再発明」

「車輪の再発明」という言葉があります。 既に発明されているものを活用しないで、同じようなものを自分でゼロから作ってしまうことを言います。IT 業界でよく使われる表現で、別の人が作った機能をうまく利用しながら新しい機能やサービスを作るために「車…

すべてWebで‐研究のためのWebアプリケーション技術‐

今回は、このブログで取り上げているwebアプリケーション技術(Javascript, D3.js, Google Chartsなど)が私のような研究者にとってどのような可能性を持つのかを考えてみたいと思います。webブラウザは、ご存知の通り、インターネットを閲覧するためのイン…