2015-01-01から1年間の記事一覧
今回は、データフレームオブジェクトの一部を取り出す方法を紹介します。ほんの少しの違いですが、取り出した結果を他の処理に利用するときには重要な違いになるので、割と大事な内容です。 R言語のオブジェクト R言語では、いろいろな構造のオブジェクト(…
今回は、R言語のコードそのものを見やすくするという話です。 Rでのコードの書き方 R言語では、型を指定しないオブジェクトにデータやその下処理・解析結果を一時的に保持するのが典型的です。例えば以下のコードは、入力データ、下処理後データ、解析結果が…
今回は、ちょっとややこしい話。2つの変数の関連性を数値の変動の仕方から推定する方法があります。例えば、一方が増えると他方も増えるのか?それとも減るのか?もしくは変わらないか。これを表す指標の一つが相関係数です。相関係数を計算する方法は、検…
今回は、RStudioを使っている時に出てきたエラーへの対処をメモ代わりにまとめておきます。 RマークダウンファイルからPDFファイル作成 RStudioでは、Rマークダウン形式ファイルがあり、マークダウン形式のテキスト、Rコード、出力結果、グラフを一つのファ…
今回は、Data Visualization Advent Calendar 2015への寄稿として書きます。qiita.com データを特徴づける指標にはいろいろなものがあります。例えば、算術平均は分布の中心を表す代表的な指標です。これに加えて、データの形状やばらつきを把握すると、より…
今回は、前に紹介したRマークダウンファイルについて、特に日本語テキストを扱うときに役立つ方法を紹介します。webbeginner.hatenablog.com 日本語のテキストが折り返されない そうなんです。前回紹介したやり方でフォントをうまく選べば、日本語も問題なく…
今までJavaに関連したプログラミング言語を学んだことがなかったのですが*1、いろいろ理由があってProcessingを始めました。本日はまず、始め方と日本語環境についてまとめます。なお、今回はmacへのインストールを前提にしています。 まずはインストール Pr…
今回はRを用いて1サンプルのt検定(母平均の検定)について考えてみます。 1サンプルのt検定とは? 仮説として仮定された母平均に対して、サンプルから推定された母平均との差の統計的有意性を検定します。 もう少し普通の言葉で言うならば、収集したデー…
今回は、Rに関する書籍の書評に挑戦してみます。 石田基弘(著)「新米探偵データ分析に挑む」 こちらです。 Amazon CAPTCHAこの書籍は、ライトノベルとR(正確にはRStudio)を利用した統計解析の解説が一つになっています。 主人公の田中くんは、探偵事務所…
RのIDEであるRStudioではknitrやrmarkdownといったパッケージを利用して、テキスト、Rスクリプト、出力結果、グラフを一つのファイルに出力できます。その際、TeXを利用するとPDFファイル出力が可能です。しかし、実際にこれをやろうとすると結構やることが…
本日は文系と理系の間にあると感じられる溝について考えてみたいと思います。 文系と理系の違い まず、文系と理系の違いについて簡単に考えてみます。下世話な言い方をすれば、これは高校における科目履修の違いです。どれだけ自然科学系の科目(数学や理解…
突然ですが実験的な研究のフレームワークとしてUnityを使い始めました。Unityはコーディングなしでも手軽にゲームを作成できる強力なツールです。(なんでUnityなのかはまた別の機会に書きます。)今回は、Unity内で時間を取得する方法をまとめておきます。 …
今回は、R言語のwordcloudパッケージを利用して、アンケートの自由記述回答をwordcloud形式で表現する方法をまとめます。 ワードクラウドとは? コトバンクによれば「文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法」との…
本日は、なんとなく気になっていた関数の呼び出し方のバリエーションをまとめておきます。 パッケージ内の関数 R言語の最大の強みの一つは、パッケージによる機能拡張でしょう。世界中の開発者がオープンな環境で次々に強力な関数を開発して公開しています。…
今回は、MeCabというオープンソースの形態素解析エンジンをRから使えるようにする方法を紹介します。いろいろな場所ですでに紹介のある内容ですが、紹介されているページのリンク先が有効でないこともあるので、2015年7月8日現在のやり方としてまとめ…
最近はずっとR言語に関するまとめが続いたので、たまには単純に考えたことを書きます。 予想が外れるのは「失敗」か? 研究に関する色々な過程の中でも一番楽しいのは、実験や調査によって収集したデータを解析し始める瞬間です。「ああかもしれない」「こう…
今回は、R言語を利用してウェブページからデータとなる情報を抽出する(いわゆるスクレイピング)方法をまとめます。 参考にしたページ abrahamcow.hatenablog.comqiita.com XMLパッケージ ウエブページを書くための言語であるHTMLは、タグ形式で表現される…
今回はR言語でデータの並べ方を変える方法を紹介します。 具体例 具体例を見てもらうのが一番わかりやすいので、先に何をしたいのかを示します。 例えばあるデータがこんな風に並べられているとします。 ID preTest postTest 1 100 90 2 85 95 これをこのよ…
今回は、データの一部を抜き出すときに便利なsubset関数の使い方をまとめます。 subset関数 subset関数の引数は以下の通りです。 x データフレームオブジェクト subset 抜き出す条件式 欠損値は自動的に除外されます select 抜き出す変数名。データフレーム…
前回、ipython notebookをOSXに導入する方法をまとめました。webbeginner.hatenablog.comそこでも少しだけ書いたのですが、ipythonはどんどん進化しており、python以外のプログラム言語も動くようになってきています。そこで今回はipythonからJupyterへの移…
今回は、少し古い情報になってしまったのですが、ipython notebookをOSXに導入する方法をメモ代わりに残します。 そもそもipython notebookとは? ipython notebookは、pythonのインタラクティブな環境をブラウザで実現する仕組みです。pythonのコード、その…
前回に引き続き、データハンドリングに利用できる関数の使い方をまとめます。 今回は、データの単位やスケールの変換に利用できるtransform関数を見てみます。 transform関数 transform関数はデータフレーム内に変数を追加する関数です。既にある変数を変換…
前回データハンドリングとその方法について考えました。データハンドリングはスクリプトを利用して - jnobuyukiのブログwebbeginner.hatenablog.com今回は、データハンドリングに利用できる関数としてcut関数を取り上げ、使用上のポイントをまとめます。 cut…
欠損値や外れ値の設定、数量データをカテゴリーデータに変換、データの並べ方の変更などいわゆるデータハンドリングについて思うところをまとめておきます。 データハンドリングは、データ解析のなかでも最も大事 今更強調して言うことでもないかもしれませ…
R言語の特徴の1つに、強力なグラフ化機能が挙げられます。標準でインストールされているplot()関数は、ちょっとしたデータの確認に便利ですし、ggplot2パッケージのggplot()関数を使えば、論文に載せる品質で図を作成できます。今回は、R言語で作った図をEP…
久しぶりのブログ記事です。今回は統計の話をします。 検定の効果量 何かの現象の原因を突き止めたい場合に、実験や調査で3つ以上の条件の間に、偶然と呼ぶには大きすぎる差があるかどうかを検証する方法として分散分析があります。この分析では、サンプル…
node.js はサーバーサイドのJavaScript環境のためのライブラリです。その使い方は、既に色々なウェブページで紹介されています。 第一回 Node.jsでどんなことができる?|マルチデバイスLab. - Multi Device Lab. いまアツいJavaScript!ゼロから始めるNode.…
今回は、公開されているデータを利用して、仮説検証型のデータの可視化をやってみます。 きっかけ Googleの及川卓也氏のブログで、先日、興味深いブログ記事を目にしました。地方自治体公式サイトのスマートフォン対応 - Nothing ventured, nothing gained.…
前回までで、2回ほど統計解析を使いこなすポイントについての私的な考えを述べてきました。最後に、統計解析を学ぶ上でのポイントを2点ほど紹介します。 分からないことは人に聞こう 特に、仮説の検証のために統計解析を利用していると「これでいいのか?」…
前回に続いて、統計解析上達のポイントとして、統計解析を利用する目的について考えてみましょう。 統計解析の目的 統計解析には大きく分けて、記述統計と推理統計があります。記述統計では、データについての数量的性質を述べることを目的とします。一方、…