jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

Rのtable関数の出力表をもっと「表らしく」するには?

今回も,Rを利用したデータ解析の細かい話です。 Rで2つのカテゴリー変数のクロス集計表(それぞれの変数の値の組み合わせ度数を数えたもの)はtable関数簡単に求められます。 data <- data.frame(x = sample(1:5,100, replace = TRUE), y= sample(c("a","b…

Rのplot関数で作るグラフの軸とその値の色を変えたい

Rはグラフをプログラミングコードで簡単に作図できるという強みがあります。とりあえずplot関数を使えばグラフをつくれるものの,いろいろな目的に合ったグラフを作るには細かい調整が欠かせません。今回は,軸や軸の値の色を変える方法を紹介します。 引数f…

Rのデータフレームから数値変数だけを抜き出したい

今回は,ありそうでなさそうなデータハンドリングに関して,メモ代わりにやり方を共有します。 Rを利用しながらデータ解析を行う際に,データフレームという数値変数も文字列変数も一緒に保存できる形式が便利です。便利なのを良いことに,順序をあまり考慮…

R言語で複数のスペースで区切られたデータを読み込む

今回は本当にちょっとしたことですが、ハマる内容なので皆様と共有します。 read.table関数でテキストデータを読み込む データ分析をするときに、何かのアプリケーションで作成したテキストデータをRに読み込ませることがあります。もっとも汎用的な関数はre…

累積PVが30万を越えました。ありがとうございます。

タイトルの通り、累積のPVが30万を越えました。たくさんの方に検索していただいているのだと思うと、もっと良い記事をたくさん投稿しようと思います。そして、数は少ないのですが、常連で読んでくださる方、これからもどうぞよろしくお願いします。

Videoタグで埋め込まれた動画の再生スピードを変えたい

今回は、ウエブ上に置かれている動画の操作について、ちょっとしたやり方を書きます。自分自身へのメモ代わりです。 動画の再生 インターネット上の動画コンテンツは以前はFlashというプラグインを利用して閲覧することが多かったのですが、最近はvideoタグ…

R言語での変数の型確認の重要性(3)

前回、R言語で変数型を意識した方が良い例として重回帰分析を紹介しました。その投稿を見てくれた知り合いが、自身の失敗談を教えてくれたので、今回はその話をします。知り合いの話では、「本来数値データとして独立変数に入れるつもりが、なぜかファクター…

R言語での変数の型確認の重要性(2)

前回、R言語では変数の型を明示的にしていしないので、注意が必要だという投稿をしました。 今回は、型変換に気をつけたほうが良い例として回帰分析をとりあげます。 回帰分析 回帰分析は、ある変数を別の変数で予測に用います。予測に使用する変数の値に適…

Jupyter notebookでRを使う:2017年1月版

今回は、以前紹介したjupyter notebookでRを使うための設定方法を再び紹介します。macを買ったので、新たに設定しようとしたところ以前とはだいぶやり方が違ったので、2017年1月版として紹介します。 今回のインストール環境 OS: macOS Sierra 10.12.2 …

サンプルサイズが条件ごとに異なる一要因分散分析

今回は、一要因分散分析について考えます。典型的な教科書では、分散分析の条件ごとのサンプルサイズが揃っている場合を扱います。もしも条件ごとのサンプルサイズが大きく異なる場合はどんな問題に気をつければよいかを見てみましょう。ちなみに似たような…

R言語での変数の型確認の重要性(1)

今回は、R言語で統計解析を学び始めた人にとって分かりにくい点について書きます。 Rの変数オブジェクトは型宣言しないが、型がある Rは、統計パッケージアプリケーションという捉え方と、データ処理のためのプログラム言語という捉え方があります。後者に関…

音の印象を尋ねるウエブページの構築

本日は、音声を聞いて、その印象を尋ねるウエブページをHTML5の標準技術で(プラグインや別のサービスなし)作ることを試みます。これができると音声を聴取する調査がぐっと簡単になりますよね。## 概要 音声を提示する 反応を取得する 音声を提示する 音声…

rmarkdownファイルのテキストで改行する方法

今回は、非常に細かい話。テキスト改行のほんのちょっとしたコツです。 改行しているのに反映されない 「テキストを改行したければ、returnキーを押せばいいのでは?」と思う方もいるとは思いますが、RStudio内のrmarkdownファイルでは、ファイル内で改行し…

三平方の定理で理解する回帰分析における分散の分解

今回は、回帰分析の細かいモデルの話を中学校で習う「三平方の定理」を利用して考えてみます。 最小2乗法による推定 回帰分析では、最小2乗法という計算方法で、回帰直線をひくための2つの推定値(切片と傾き)を決めます。何を最小にするかというと実際に…

相関と回帰は何が違うか?

今回は、相関分析と回帰分析は何が違うのかを考えます。 相関と回帰の共通点、類似点 相関分析と回帰分析はどちらも、2つの連続量変数(数量型データ)の関係を調べるために行います。ここでの「連続量変数」とは、単に数字で表したデータという意味ではな…

アクセス数の合計が200,000を超えました!ありがとうございます!

本日は、ご報告とお礼です。本ブログのアクセス数の合計が200,000を超えました。前回のご報告でアクセス数100,000突破が今年2016年2月のことでしたので、1年かからずに100,000アクセスをいただいたことになります。 最近のアクセス傾向 これまでのアク…

データリテラシー向上のためのブートストラップは何か?

今回は、統計や確率、データ解析についてもっと理解し、理解してもらうためのヒントについて考えてみます。最初に言いますが、結論はないです。 確率や統計の学習は難しい 統計やデータは確率という目に見えない概念を論理的、数学的に扱う必要があります。…

RStudio バージョン1.0でインタラクティブな解析

今回は、R言語を便利に操作するためのアプリケーションRStudioについてです。いよいよバージョン1.0になったRStudioにできた新機能を試してみます。 Rmarkdownファイルを利用した解析(旧バージョン) RStudioの便利機能の一つにRmarkdownファイルによる解析…

「数学ガールの秘密ノート やさしい統計」の感想(2)

今回も「数学ガール秘密ノート やさしい統計」の感想を書きたいと思います。 第4章 「コインを10回投げたとき」 この章では、コインの表が出るか裏がでるかという2つの事象の確率を2項分布で明らかにしていきます。「数学ガール」では、問題への取り組…

「数学ガールの秘密ノート やさしい統計」の感想(1)

今回は、統計学を扱った書籍の感想を2回に分けて述べたいと思います。タイトルでわかる通り、数学ガールの関連書籍で、メインのシリーズというよりは中高生向けのシリーズと認識しています。 そう、著者は結城浩先生です。書評というよりデータリテラシーと…

統計学の用語のややこしさ(2)

前回に引き続き、今回も統計学の用語で「言い方が違うのに指している内容は同じ」ものを紹介します。## 回帰分析の原因と結果に関する変数の名前 統計学で利用される分析方法の1つに回帰分析があります。回帰分析では、ある事柄の程度を示す数値を予測する…

統計学の用語のややこしさ(1)

今回は、統計学やデータリテラシーで使われる用語のややこしさについて書いてみたいと思います。## 統計学の用語 どんな専門領域でもその領域で通じる用語というものがありますよね。細かい言い回しを一言でまとめられれば、話の進みが早くてすみます。ただ…

大学生への教育を教員による「知的なクローニング」と考えてみる

今回は、大学教育というか教育一般について思うことを書きます。 学生は何を学ぶんだろう? 近年、学生による能動的な学びを促す仕組みが含まれる教授法をアクティブラーニングと呼び、大学をはじめとする高等教育機関で試行錯誤が続いています。学生がぼー…

データの散らばりは誤差にも情報にもなる

今回は、統計を使い始めの人が「ややこしい」と感じそうな話です。 データの散らばりとは 社会科学でも自然科学でも何かデータをとって(難しい言葉使いだと「実証的」)、そのデータから自分の考えを主張したい場合があります。このときデータは、2回以上…

2要因の分散分析での交互作用効果と単純主効果検定の関係

今回は、2要因の分散分析をするときの交互作用と単純主効果について説明します。ややこしい話題ですが、具体的なストーリーで説明して、ちょっとでもわかりやすくと思っています。 想定例:学生の専門分野による文章内の図表の挿入効果の違い 今回は、ある…

多重共線性によって重回帰分析の推定は不安定になる(のはなぜか?)

今回は、回帰分析を実用する上で気をつけたい問題の1つである多重共線性について考えます。 多重共線性って? 回帰分析では、一つの従属変数(予測される変数)に対して一つ以上の独立変数(予測する変数)を構成して予測モデルとします*1。このとき、予測…

標準偏差と平均偏差の使い分け

本日は、割と当たり前に使っていた統計の知識でも、「なぜ」そうするのかを知らなかったという話です。統計学は、実学としての側面を持っているので、こんなことが起きるんですよね。 標準偏差と平均偏差 標準偏差と平均偏差はどちらもデータのばらつきの指…

R言語で区切り文字による文字列の分割

今回は、区切り文字を指定して、文字列を分割してリスト化する方法を紹介します。 strsplit関数 strsplit関数を使うと任意の文字を区切り文字として、文字列を分割できます。例えば以下のように使います。 input <- "abc def ghi" res <- strsplit(input, " …

研究者とは何をする人か?それに必要な資質は?

今回は、「研究者って何か?」を考えます。一応研究者であるので、職業としての研究者や自分の経歴を紹介する機会があります。しかし、先日のそのような機会では、そもそも研究者が何かをうまく語れなかったんです。なので、反省文も兼ねて、研究者やその資…

Dockerを利用してRStudioのRマークダウンファイルを使う

今回は、かなり技術的な内容です。Dockerを利用しながら、RStudioのRマークダウンファイルによる解析環境を構築します。ポイントは、日本語フォントが入っていてもきちんとPDF出力がなされるところです。 Dockerって? Docker社が提供しているサービスです。…