R言語でパターンマッチング

R言語 R

今回は、R言語で正規表現を利用したパターンマッチングの使用例を紹介します。 R言語のパターンマッチング：grepの場合特定のテキストや文字列のリストに対して、任意のパターンを検索します。文字列がパターンを含んでいるとリスト内の位置を戻り値として…

2016-01-05

R言語でデータフレームの一部を参照する方法(2)

R言語 R

前回、データフレームの一部の参照についてまとめました。今回はその補足です。webbeginner.hatenablog.com リスト形式での参照データフレーム形式のオブジェクトに以下のようにアクセスするとデータの一部のみが参照されますが、その形式はデータフレーム…

2015-12-31

R言語でデータフレームの一部を参照する方法

HTML5 R R言語

今回は、データフレームオブジェクトの一部を取り出す方法を紹介します。ほんの少しの違いですが、取り出した結果を他の処理に利用するときには重要な違いになるので、割と大事な内容です。 R言語のオブジェクト R言語では、いろいろな構造のオブジェクト（…

2015-12-29

R言語でパイプ処理を利用してコードを見やすく

R R言語

今回は、R言語のコードそのものを見やすくするという話です。 Rでのコードの書き方 R言語では、型を指定しないオブジェクトにデータやその下処理・解析結果を一時的に保持するのが典型的です。例えば以下のコードは、入力データ、下処理後データ、解析結果が…

2015-12-18

統計的に有意となる相関係数を自由度と有意水準から逆算する

R R言語

今回は、ちょっとややこしい話。２つの変数の関連性を数値の変動の仕方から推定する方法があります。例えば、一方が増えると他方も増えるのか？それとも減るのか？もしくは変わらないか。これを表す指標の一つが相関係数です。相関係数を計算する方法は、検…

2015-12-07

RマークダウンファイルでGhostscriptに関するエラーへの対処

R R言語

今回は、RStudioを使っている時に出てきたエラーへの対処をメモ代わりにまとめておきます。 RマークダウンファイルからPDFファイル作成 RStudioでは、Rマークダウン形式ファイルがあり、マークダウン形式のテキスト、Rコード、出力結果、グラフを一つのファ…

2015-12-02

可視化で理解する中心極限定理

R R言語

今回は、Data Visualization Advent Calendar 2015への寄稿として書きます。qiita.com データを特徴づける指標にはいろいろなものがあります。例えば、算術平均は分布の中心を表す代表的な指標です。これに加えて、データの形状やばらつきを把握すると、より…

2015-11-13

Rマークダウンファイルで日本語を使う時のヒント

R R言語

今回は、前に紹介したRマークダウンファイルについて、特に日本語テキストを扱うときに役立つ方法を紹介します。webbeginner.hatenablog.com 日本語のテキストが折り返されないそうなんです。前回紹介したやり方でフォントをうまく選べば、日本語も問題なく…

2015-11-06

R言語で１サンプルのt検定

R言語 R

今回はRを用いて１サンプルのt検定（母平均の検定）について考えてみます。１サンプルのt検定とは？仮説として仮定された母平均に対して、サンプルから推定された母平均との差の統計的有意性を検定します。もう少し普通の言葉で言うならば、収集したデー…

2015-10-23

Rマークダウンファイルで使えるフォントを選ぶ

R R言語

RのIDEであるRStudioではknitrやrmarkdownといったパッケージを利用して、テキスト、Rスクリプト、出力結果、グラフを一つのファイルに出力できます。その際、TeXを利用するとPDFファイル出力が可能です。しかし、実際にこれをやろうとすると結構やることが…

2015-07-31

R言語でワードクラウドを作る

R R言語

今回は、R言語のwordcloudパッケージを利用して、アンケートの自由記述回答をwordcloud形式で表現する方法をまとめます。ワードクラウドとは？コトバンクによれば「文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法」との…

2015-07-23

R言語でパッケージから関数を呼び出す

R R言語

本日は、なんとなく気になっていた関数の呼び出し方のバリエーションをまとめておきます。パッケージ内の関数 R言語の最大の強みの一つは、パッケージによる機能拡張でしょう。世界中の開発者がオープンな環境で次々に強力な関数を開発して公開しています。…

2015-07-08

R言語で形態素解析

R R言語

今回は、MeCabというオープンソースの形態素解析エンジンをRから使えるようにする方法を紹介します。いろいろな場所ですでに紹介のある内容ですが、紹介されているページのリンク先が有効でないこともあるので、２０１５年７月８日現在のやり方としてまとめ…

2015-06-13

R言語でウェブページから情報を抽出

HTML5 R言語 R

今回は、R言語を利用してウェブページからデータとなる情報を抽出する（いわゆるスクレイピング）方法をまとめます。参考にしたページ abrahamcow.hatenablog.comqiita.com XMLパッケージウエブページを書くための言語であるHTMLは、タグ形式で表現される…

2015-06-02

R言語でデータの並べ替え

R R言語

今回はR言語でデータの並べ方を変える方法を紹介します。具体例具体例を見てもらうのが一番わかりやすいので、先に何をしたいのかを示します。例えばあるデータがこんな風に並べられているとします。 ID preTest postTest 1 100 90 2 85 95 これをこのよ…

2015-05-30

R言語でデータセットの一部を抜き出す

R R言語

今回は、データの一部を抜き出すときに便利なsubset関数の使い方をまとめます。 subset関数 subset関数の引数は以下の通りです。 x データフレームオブジェクト subset 抜き出す条件式欠損値は自動的に除外されます select 抜き出す変数名。データフレーム…

2015-05-29

IPythonからJupyterへの移行とR用カーネルの導入

R python R言語

前回、ipython notebookをOSXに導入する方法をまとめました。webbeginner.hatenablog.comそこでも少しだけ書いたのですが、ipythonはどんどん進化しており、python以外のプログラム言語も動くようになってきています。そこで今回はipythonからJupyterへの移…

2015-05-29

OSXでipython notebookを使う

python R R言語 Reveal.js

今回は、少し古い情報になってしまったのですが、ipython notebookをOSXに導入する方法をメモ代わりに残します。そもそもipython notebookとは？ ipython notebookは、pythonのインタラクティブな環境をブラウザで実現する仕組みです。pythonのコード、その…

2015-05-28

R言語で変数を変換する

R言語 R

前回に引き続き、データハンドリングに利用できる関数の使い方をまとめます。今回は、データの単位やスケールの変換に利用できるtransform関数を見てみます。 transform関数 transform関数はデータフレーム内に変数を追加する関数です。既にある変数を変換…

2015-05-27

R言語で数量データをカテゴリーデータに変換

R R言語

前回データハンドリングとその方法について考えました。データハンドリングはスクリプトを利用して - jnobuyukiのブログwebbeginner.hatenablog.com今回は、データハンドリングに利用できる関数としてcut関数を取り上げ、使用上のポイントをまとめます。 cut…

2015-05-24

データハンドリングはスクリプトを利用して

R言語一般 R

欠損値や外れ値の設定、数量データをカテゴリーデータに変換、データの並べ方の変更などいわゆるデータハンドリングについて思うところをまとめておきます。データハンドリングは、データ解析のなかでも最も大事今更強調して言うことでもないかもしれませ…

2015-05-14

R言語で作成した図をEPS形式で保存する

R R言語

R言語の特徴の１つに、強力なグラフ化機能が挙げられます。標準でインストールされているplot()関数は、ちょっとしたデータの確認に便利ですし、ggplot2パッケージのggplot()関数を使えば、論文に載せる品質で図を作成できます。今回は、R言語で作った図をEP…

2015-04-26

R言語を利用して分散説明率と効果量fの関係を図示する

R R言語

久しぶりのブログ記事です。今回は統計の話をします。検定の効果量何かの現象の原因を突き止めたい場合に、実験や調査で３つ以上の条件の間に、偶然と呼ぶには大きすぎる差があるかどうかを検証する方法として分散分析があります。この分析では、サンプル…

2015-02-13

R言語でデータのパーセンタイルを計算する

R言語 R

数値データの要約（summary関数）を使うと、R言語では簡単に4分位数（25%パーセンタイル、中央値、75%パーセンタイル）を計算できます。でも、いわゆるパーセンタイル値（100分位数）は簡単に計算できないようです。（関数を知らないだけかもしれないです）…

2015-02-06

R言語でインターネットからファイルをダウンロードする

R R言語

最近、オープンデータと呼ばれる情報公開の動きがネット上で見られるようになりました。（まだまだたくさんとはいえませんが）これを利用して何か分析したいとしましょう。まずブラウザを経由してデータをダウンロードします。次にエクセルなどでファイルの…

2015-02-06

R言語で行列を結合する：rbindとcbind

R R言語

R言語のちょっとした使い方のヒントです。今回は複数の行列（matrix）を結合するための関数rbindとcbindを紹介します。 rbindとcbind rbindとcbindの違いは結合の方向です。rbindは縦につなげて、cbindは横につなげます。データ解析で行列オブジェクトを使用…

2015-01-30

R言語を利用してリスト要素の順序をランダム化

R R言語

今回は少しトリッキーというかあまりほかの人には役立たないかもしれない話題です。リストを何かの順序で規則正しく並べ替えることはよくあると思います。順番良く並べてリスト全体を見やすくするようなときです。今回は、この逆で順序良く並んでいるものを…

2015-01-27

ｔ検定の検出力：2群のサンプルサイズが異なる場合

R言語 R

今回は、ｔ検定の検出力について簡単なシミュレーションの結果を紹介します。検出力とは、帰無仮説を棄却することが真である状況で、正しく帰無仮説を棄却できる確率のことです。*1 今回紹介するｔ検定の場合、二群が同じ母集団を持つことを帰無仮説とします…

2014-09-29

R言語scale()での正規化バリエーション

R R言語

以前、データの正規化にはいろいろな方法があることを述べました。数量の正規化：方法の違いは何を意味するか？ - jnobuyukiのブログいろいろな正規化をやってくれるコマンドにR言語のscale（）があります。この関数は、何も考えずに使ってもそれなりに動…

2014-09-17

JavaScriptで出てくる二回連続の否定演算子!!

JavaScript R言語 R

たまに他の人が書いたコードを見ているとはまることがあります。今回の二重否定も、ネット検索して調べるのに意外と時間がかかったのでメモとして残します。否定演算子！変数の値の判定などで論理演算子をよく使いますが、否定演算子の！は、真偽の値をひ…