jnobuyukiのブログ

JavaScriptとR言語を中心に研究活動に役立つwebアプリケーション技術について考えていきます。twitter ID: @j_nobuyuki

多重共線性によって重回帰分析の推定は不安定になる(のはなぜか?)

今回は、回帰分析を実用する上で気をつけたい問題の1つである多重共線性について考えます。 多重共線性って? 回帰分析では、一つの従属変数(予測される変数)に対して一つ以上の独立変数(予測する変数)を構成して予測モデルとします*1。このとき、予測…

標準偏差と平均偏差の使い分け

本日は、割と当たり前に使っていた統計の知識でも、「なぜ」そうするのかを知らなかったという話です。統計学は、実学としての側面を持っているので、こんなことが起きるんですよね。 標準偏差と平均偏差 標準偏差と平均偏差はどちらもデータのばらつきの指…

R言語で区切り文字による文字列の分割

今回は、区切り文字を指定して、文字列を分割してリスト化する方法を紹介します。 strsplit関数 strsplit関数を使うと任意の文字を区切り文字として、文字列を分割できます。例えば以下のように使います。 input <- "abc def ghi" res <- strsplit(input, " …

研究者とは何をする人か?それに必要な資質は?

今回は、「研究者って何か?」を考えます。一応研究者であるので、職業としての研究者や自分の経歴を紹介する機会があります。しかし、先日のそのような機会では、そもそも研究者が何かをうまく語れなかったんです。なので、反省文も兼ねて、研究者やその資…

Dockerを利用してRStudioのRマークダウンファイルを使う

今回は、かなり技術的な内容です。Dockerを利用しながら、RStudioのRマークダウンファイルによる解析環境を構築します。ポイントは、日本語フォントが入っていてもきちんとPDF出力がなされるところです。 Dockerって? Docker社が提供しているサービスです。…

学会・研究会における保育サービスについて思うこと

今回は、子育て世代研究者あるあるのような話題で、それについて思うことを書きます。 学会における保育サービス 学会や研究会において、子連れでの参加を促すために保育サービスが提供されることがあります。子育て世代の研究者にとって、このサービスはそ…

10万PVになりました。ありがとうございます。

今回は、このブログを見てくださった皆様へのお礼です。 100,000PV 100,000PVは、このブログを始めた時、そして始めてしばらくの間には考えもつかなかった数字です。しかも2014年11月に10,000pv達成だったので、1年1〜2ヶ月の間に指数的にpvが伸びています。…

R言語でサイズの大きいファイルの読み込み

今回は、ファイルの入力に関するヒントを書きます。 ファイルからの入力はread.table関数 R言語では、baseパッケージの中にread.table関数、read.csv関数などがあります。これを利用すれば、簡単にテキストファイルとして保存されているデータを読み込めます…

なぜ分散分析には自由度が2つあるのか?

今回は、分散分析という解析方法の紹介をします。 平均値の差の検定です。 分散分析は、3つ以上の条件やグループがあるときの平均値の条件差・グループ間の差を比較するときに使います。確率の考え方を取り入れることで、平均の差が偶然と呼べる程度の差な…

卒論でよく言われる「まだ検討されていない」研究テーマについて思うこと

大学の卒業論文の季節ですね。今回は、卒業論文でよく見られる表現について考えたことを書きます。 科学が目指すもの 科学が目指すものは「新たな知の獲得」です*1。今まで誰も知らなかったことを調べてみて、面白い結果が得られたらそれを皆で共有します。…

大学での授業ノートを貸し借りについて思うこと

今回も、日常的なテーマで思うことを書いてみます。今回のテーマは、一部の大学生にとって悩みの種になるようなもので、検索するといろいろな意見が飛び交っていて面白いです。例えばdetail.chiebukuro.yahoo.co.jp 上記のような悩み相談が数え切れないほど…

統計学を通して見える世界

今回は、統計学に基づいた研究の意義や世界の見え方について思うことを書きます。 研究にとっての統計的仮説検定というツール 研究では、何らかのアイデア(仮説と呼びます)が、実際に何かの現象をうまく説明できたり、何かに役立ったりすることなどを検証…

R言語で複数の変数を集計(2)

今回は、前回の内容の続きで、複数の変数の内容を1つの変数にまとめる方法を紹介します。 複数の変数に別れた条件名を1つにまとめたい 以下のデータフレームでは、ある条件に該当するかどうかが複数の項目への解答として記録されています。 参加者 条件A …

R言語で複数の変数を集計

今回は、アンケート項目の集計などに用いるような複数項目の集計方法を紹介します。 rowSums関数の利用 各個人が次のようにアンケートに答えたとします。 参加者ID 質問1 質問2 質問3 A 1 1 0 B 0 1 0 C NA NA NA D NA 1 0 1は「はい」、0は「いいえ」、N…

R言語でデータフレームのデータを並べ替え

今回はR言語でデータを扱うときのちょっとした技の紹介です。 データの並べ替え 複数の変数で構成されるデータフレームオブジェクトについて、任意の変数の昇順で、ケースを並べ替えたい場合は、order関数を利用します。 #データ data <- data.frame(x = c(1…

子供が使うPCのスペック

今回は、タイトルの内容について思ったことをただそのまま書いてみたいと思います。 予算だけを言えば、できるだけ抑えたい PCの価格は常に下がり続けています。以前なら30万円を超えるような PCと同等性能のPCが10万円、場合によってはそれ以下で購入で…

R言語でパターンマッチング

今回は、R言語で正規表現を利用したパターンマッチングの使用例を紹介します。 R言語のパターンマッチング:grepの場合 特定のテキストや文字列のリストに対して、任意のパターンを検索します。文字列がパターンを含んでいるとリスト内の位置を戻り値として…

R言語でデータフレームの一部を参照する方法(2)

前回、データフレームの一部の参照についてまとめました。今回はその補足です。webbeginner.hatenablog.com リスト形式での参照 データフレーム形式のオブジェクトに以下のようにアクセスするとデータの一部のみが参照されますが、その形式はデータフレーム…

R言語でデータフレームの一部を参照する方法

今回は、データフレームオブジェクトの一部を取り出す方法を紹介します。ほんの少しの違いですが、取り出した結果を他の処理に利用するときには重要な違いになるので、割と大事な内容です。 R言語のオブジェクト R言語では、いろいろな構造のオブジェクト(…

R言語でパイプ処理を利用してコードを見やすく

今回は、R言語のコードそのものを見やすくするという話です。 Rでのコードの書き方 R言語では、型を指定しないオブジェクトにデータやその下処理・解析結果を一時的に保持するのが典型的です。例えば以下のコードは、入力データ、下処理後データ、解析結果が…

統計的に有意となる相関係数を自由度と有意水準から逆算する

今回は、ちょっとややこしい話。2つの変数の関連性を数値の変動の仕方から推定する方法があります。例えば、一方が増えると他方も増えるのか?それとも減るのか?もしくは変わらないか。これを表す指標の一つが相関係数です。相関係数を計算する方法は、検…

RマークダウンファイルでGhostscriptに関するエラーへの対処

今回は、RStudioを使っている時に出てきたエラーへの対処をメモ代わりにまとめておきます。 RマークダウンファイルからPDFファイル作成 RStudioでは、Rマークダウン形式ファイルがあり、マークダウン形式のテキスト、Rコード、出力結果、グラフを一つのファ…

可視化で理解する中心極限定理

今回は、Data Visualization Advent Calendar 2015への寄稿として書きます。qiita.com データを特徴づける指標にはいろいろなものがあります。例えば、算術平均は分布の中心を表す代表的な指標です。これに加えて、データの形状やばらつきを把握すると、より…

Rマークダウンファイルで日本語を使う時のヒント

今回は、前に紹介したRマークダウンファイルについて、特に日本語テキストを扱うときに役立つ方法を紹介します。webbeginner.hatenablog.com 日本語のテキストが折り返されない そうなんです。前回紹介したやり方でフォントをうまく選べば、日本語も問題なく…

Processing始めました

今までJavaに関連したプログラミング言語を学んだことがなかったのですが*1、いろいろ理由があってProcessingを始めました。本日はまず、始め方と日本語環境についてまとめます。なお、今回はmacへのインストールを前提にしています。 まずはインストール Pr…

R言語で1サンプルのt検定

今回はRを用いて1サンプルのt検定(母平均の検定)について考えてみます。 1サンプルのt検定とは? 仮説として仮定された母平均に対して、サンプルから推定された母平均との差の統計的有意性を検定します。 もう少し普通の言葉で言うならば、収集したデー…

書評「新米探偵データ分析に挑む」

今回は、Rに関する書籍の書評に挑戦してみます。 石田基弘(著)「新米探偵データ分析に挑む」 こちらです。 Amazon CAPTCHAこの書籍は、ライトノベルとR(正確にはRStudio)を利用した統計解析の解説が一つになっています。 主人公の田中くんは、探偵事務所…

Rマークダウンファイルで使えるフォントを選ぶ

RのIDEであるRStudioではknitrやrmarkdownといったパッケージを利用して、テキスト、Rスクリプト、出力結果、グラフを一つのファイルに出力できます。その際、TeXを利用するとPDFファイル出力が可能です。しかし、実際にこれをやろうとすると結構やることが…

文系と理系の溝

本日は文系と理系の間にあると感じられる溝について考えてみたいと思います。 文系と理系の違い まず、文系と理系の違いについて簡単に考えてみます。下世話な言い方をすれば、これは高校における科目履修の違いです。どれだけ自然科学系の科目(数学や理解…

Unity C#で時間の取得

突然ですが実験的な研究のフレームワークとしてUnityを使い始めました。Unityはコーディングなしでも手軽にゲームを作成できる強力なツールです。(なんでUnityなのかはまた別の機会に書きます。)今回は、Unity内で時間を取得する方法をまとめておきます。 …