Rのtable関数の出力表をもっと「表らしく」するには?
今回も,Rを利用したデータ解析の細かい話です。
Rで2つのカテゴリー変数のクロス集計表(それぞれの変数の値の組み合わせ度数を数えたもの)はtable関数簡単に求められます。
data <- data.frame(x = sample(1:5,100, replace = TRUE), y= sample(c("a","b","c"),100, replace = TRUE)) table(data)
簡単だけど,この出力はそれほど便利ではありません。罫線が引かれていないし,値をMSエクセルなどに転記して,表を作らなければ見た目があまりよくないと感じます。では,表としての見栄えを改善する方法はないでしょうか?
xtable関数はどうか?
xtableパッケージの中にあるxtable関数を使えば,表をtex形式やhtml形式で出力できます。
#xtableパッケージを未インストールならインストール intall.packages("xtable") #xtableパッケージの起動 library(xtable) #tex形式で出力するなら print(xtable(table(data)),type = "latex")
これで以下のような出力が得られます。
% latex table generated in R バージョン番号 by xtable バージョン番号 package
% 作成年月日
\begin{table}[ht]
\centering
\begin{tabular}{rrrr}
\hline
& a & b & c \\
\hline
1 & 7 & 9 & 8 \\
2 & 5 & 7 & 4 \\
3 & 8 & 6 & 7 \\
4 & 3 & 10 & 6 \\
5 & 9 & 8 & 3 \\
\hline
\end{tabular}
\end{table}
この出力はPCにtex環境がインストールされている必要があります。
print(xtable(table(data)),type = "html")
html形式で出力すると以下のようなタグ付きの出力が生成されます。はてなブログではhtmlなので表として表現されますね。
<!-- html table generated in R バージョン番号 by xtableバージョン番号 package --> <!-- Thu Dec 14 15:47:29 2017 --> <table border=1> <tr> <th> </th> <th> a </th> <th> b </th> <th> c </th> </tr> <tr> <td align="right"> 1 </td> <td align="right"> 7 </td> <td align="right"> 9 </td> <td align="right"> 8 </td> </tr> <tr> <td align="right"> 2 </td> <td align="right"> 5 </td> <td align="right"> 7 </td> <td align="right"> 4 </td> </tr> <tr> <td align="right"> 3 </td> <td align="right"> 8 </td> <td align="right"> 6 </td> <td align="right"> 7 </td> </tr> <tr> <td align="right"> 4 </td> <td align="right"> 3 </td> <td align="right"> 10 </td> <td align="right"> 6 </td> </tr> <tr> <td align="right"> 5 </td> <td align="right"> 9 </td> <td align="right"> 8 </td> <td align="right"> 3 </td> </tr> </table>
a | b | c | |
---|---|---|---|
1 | 7 | 9 | 8 |
2 | 5 | 7 | 4 |
3 | 8 | 6 | 7 |
4 | 3 | 10 | 6 |
5 | 9 | 8 | 3 |
これなら表貼り付けもできそうですね。
番外編:やっぱりエクセルを利用する
クロス集計表の計算自体はRにやらせて,結果をエクセルで読み込めば良いかもしれません。その場合は,以下のようにwrite.table関数を利用すると便利です。
write.table(table(data),"filename.txt", quote = FALSE, sep = ",")
これでできたfilename.txtをエクセルで読み込んだら,あとは罫線を引いて,幅を整えてできあがりです。
番外編その2: RStudioならrmd形式でマークダウンの表を使う
.rmd形式では|と-をつかって表を作成できます。
||a|b|c| |---|---|---|---| |1|7|9|8| |2|5|7|4| |3|8|6|7| |4|3|10|6| |5|9|8|3|
a | b | c | |
1 | 7 | 9 | 8 |
2 | 5 | 7 | 4 |
3 | 8 | 6 | 7 |
4 | 3 | 10 | 6 |
5 | 9 | 8 | 3 |
Rのplot関数で作るグラフの軸とその値の色を変えたい
Rはグラフをプログラミングコードで簡単に作図できるという強みがあります。とりあえずplot関数を使えばグラフをつくれるものの,いろいろな目的に合ったグラフを作るには細かい調整が欠かせません。今回は,軸や軸の値の色を変える方法を紹介します。
引数fgとcol.axisの利用
まずはデフォルトのグラフとして以下のコードで作図したグラフを見てみましょう。
plot(0,0)
つぎにfgを足して,軸(というより囲み枠)の色を変えてみましょう。
plot(0,0, fg = "blue")
今後はcol.axis を足して軸の値の色を変えてみましょう。
plot(0,0, col.axis = "blue")
ちなみにcol.labという引数もあります。これを変更すると軸のラベルの色を変更できます。
Rのデータフレームから数値変数だけを抜き出したい
今回は,ありそうでなさそうなデータハンドリングに関して,メモ代わりにやり方を共有します。
Rを利用しながらデータ解析を行う際に,データフレームという数値変数も文字列変数も一緒に保存できる形式が便利です。便利なのを良いことに,順序をあまり考慮せずにデータフレームオブジェクトを作ってしまうと...。「20個ある変数の中で,2番めと4番目と5番目と9番目10番目11番目と18番目の変数が数値変数。あとは文字列変数。」といった複雑な状況が生じます。では,このような数値変数と文字列変数がまざったデータフレームオブジェクトから数値変数だけを抜き出す方法を考えてみましょう。
str関数はあまり役に立たない
str関数は,データフレームオブジェクトの中身の変数のクラスを表示してくれます。これを利用できそうな気がするのですが,どうもstr関数は,次の計算に使用可能な出力がありません。なので,結局目で見ながらメモをとることになってしまいます。
is.numeric関数を使いましょう
str関数がうまくいかないので,is.numeric関数を利用します。この関数は,引数として与えたベクトルオブジェクトが数値ベクトルのときにTRUE, そうでなければFALSEを返します。なので,次のようなコードで数値ベクトルかどうかの判断した結果を残せます。
res <- NULL for ( i in 1:ncol(data)){ res <- append(res, is.numeric(data[,i])) }
あとは,データフレーム全体から,is.numeric関数の出力結果がTRUEの列番号の変数だけを抜けば良いでしょう。
subsetdata <- data[,which(res == TRUE)]
もっと簡単なやり方やそれを一度にできる関数をご存じの方がいらしたらぜひ教えてください。
R言語で複数のスペースで区切られたデータを読み込む
今回は本当にちょっとしたことですが、ハマる内容なので皆様と共有します。
read.table関数でテキストデータを読み込む
データ分析をするときに、何かのアプリケーションで作成したテキストデータをRに読み込ませることがあります。もっとも汎用的な関数はread.table関数です。この関数では、以下のようにファイル名、区切り文字、変数名ラベルの有無などを設定してRのデータフレーム型のオブジェクトとして読み込みます。
data <- read.table("ファイル名", sep = "", header = TRUE)
上記のうち、sepが区切り文字です。カンマ区切りなら","、タブ区切りなら"\t"にします。header はテキストファイルの1行目に変数名があるならTRUE、ないならFALSEにします。
複数のスペースで区切られたテキストファイルの読み込み
通常は上記のような操作でファイルを読み込めば良いので全く問題ありません。問題は、1つ以上の空白スペースで区切られたテキストファイルを読み込むときです。このようなファイルの場合、テキストファイルの見栄えをよくする都合で、変数間でスペースの数が異なることがしばしばあります。これをいかのような区切り文字にスペースを設定する方法だとうまくいきません。
data <- read.table("ファイル名", sep = " ", header = TRUE)
なぜうまくいかないかというと、上記の方法では区切り文字を「1文字の空白スペース」と指定しているからです。つまりスペースの数+1だけ変数があるとなってしまいます。
sep はデフォルトにすればよい
複数の空白スペースで区切られたファイルは、区切り文字をデフォルト""にするとうまく読み込めます。実は、区切り文字のデフォルトは1つまたは複数の空白スペースなんです。なので、空白スペースで区切られたテキストファイルを読み込むにはsepを設定しない(つまりデフォルト値を使う)または以下のように書けば良いでしょう。
data <- read.table("ファイル名", sep ="", header = TRUE)
R言語の場合、きめ細かく引数を設定するのが上手に使うコツの1つだと思うのですが、たまにはデフォルト値を信用してみるというのも大事なようです。
累積PVが30万を越えました。ありがとうございます。
タイトルの通り、累積のPVが30万を越えました。たくさんの方に検索していただいているのだと思うと、もっと良い記事をたくさん投稿しようと思います。そして、数は少ないのですが、常連で読んでくださる方、これからもどうぞよろしくお願いします。
Videoタグで埋め込まれた動画の再生スピードを変えたい
今回は、ウエブ上に置かれている動画の操作について、ちょっとしたやり方を書きます。自分自身へのメモ代わりです。
動画の再生
インターネット上の動画コンテンツは以前はFlashというプラグインを利用して閲覧することが多かったのですが、最近はvideoタグというHTML5のオブジェクトとして埋め込まれることが多くなりました。例えばYou Tubeの動画も多くはこのvideoタグとして埋め込まれているようです。そして、動画の内容によっては、少し早く再生したい、または遅く再生したいということがありますよね。 You Tubeには再生スピードをコントロールする機能が付いていますが、0.25倍、0.5倍、1.25倍、1.5倍、2倍といったように「あと少し早くまたはゆっくり」という変更ができません。今回紹介する方法は、任意の倍率で再生スピードを変えられます。
1. 再生したい動画を表示する
まずは再生したい動画を表示しましょう。
3. videoタグのplaybackRage属性を上書きする
以下のコードでvideoタグのオブジェクトの再生スピードを変更できます。以下の例では再生スピードを2倍にしています。2を任意の数字にかえることで、好きな再生速度に設定できます。
document.querySelector('video').playbackRate = 2;
これで動画の再生スピードを変えられます。
おまけ
ここまで紹介しておいてから、ここのおまけとして書くのは少しおかしいのですが、実は、このやり方がうまくいかないこともあります。私の場合mac版のChromeで一部のvideoタグに埋め込まれた動画について上記操作をしても何も変更できないことがあります。どうやら、document.querySelector('video')の段階で参照すべきオブジェクトが拾えていないようです。この対処法として、ビデオが再生されている画面を二本指クリック(右クリック)して、「検証」を押すと、上記と同様にデベロッパーツールが開きます。これをしてからだと、上記の操作が思った通りに動きました。うまくいかないという方はこちらも試してみてください。
R言語での変数の型確認の重要性(3)
前回、R言語で変数型を意識した方が良い例として重回帰分析を紹介しました。その投稿を見てくれた知り合いが、自身の失敗談を教えてくれたので、今回はその話をします。
知り合いの話では、「本来数値データとして独立変数に入れるつもりが、なぜかファクター型として読み込まれてしまっていた。回帰分析の出力結果を見たときに、変数の読み込み失敗に気づいたので、ファクター型変数を数量型変数へと変換した。ところが解析結果は結局おかしなものになってしまった。」というものでした。
仮想例による再現
前回の例を参考にしながら、上で書いた状態を再現してみましょう。
まず、従属変数と独立変数として二つの数量型変数をつくります。
set.seed(1) DV <- rnorm(100) set.seed(2) IV <- rnorm(100) summary(cbind(DV,IV))
次に独立変数が誤ってファクター型変数になってしまった状態を意図的に作ります。
IVc <- factor(IV) summary(IVc)
ファクター型の変数を独立変数としたおかしな回帰分析の結果を再現してみます。
res.c <- lm(DV ~ IVc) summary(res.c)
回帰分析を実施した出力が以下のようになり、何かおかしい事に気づきました。
これは変数の読み込みがおかしいのだと考え、以下のように独立変数を数量型データへと変換します*1。
そしてもう一度回帰分析をしてみました。
IVcn <- as.numeric(IVc) res.cn <- lm(DV ~ IVcn) summary(res.cn)
結果を表示すると、一見何の問題もないように見えます。しかし、本来あるべき解析結果と比較すると結果が異なっているのです。
res <- lm(DV ~ IV) summary(res)
こうなってしまったのは、ファクター型から数量型へデータを変換するために使ったas.numeric関数が原因です。ただし、これはバグではなく、仕様です。詳しく見てみましょう。
factor型変数のLevels
factor関数は、数量型または文字列型の変数を変換する際に、水準(levels)という出力を作成します。水準には与えられた入力オブジェクトの値の異なりが保存されています。以下の例がわかりやすいと思います。ファクター型に変換すると、"a","b","c"のような文字列のオブジェクトではa,b,cが、1,2,4のような数値のオブジェクトでは1,2,3という水準が割り振られています。
alphabetObject <- c("a","b","c","a","c","b","b") numberObject <- c(1,2,4,1,4,2,2) alphabetObject.factor <- factor(alphabetObject) numberObject.factor<- factor(numberObject) print(alphabetObject.factor) print(numberObject.factor)
次に上記の変数をas.numeric関数を利用して変換してみます。
as.numeric(alphabetObject.factor) as.numeric(numberObject.factor)
出力結果は、どちらも1,2,3という数字で構成されています。文字列が割り振られているファクター型の変数は水準の低い方から1,2,3というように数字を割り振られています。また、数値オブジェクトから変換したファクター型の変数でも、水準の低い方から1,2,3と割り振られています。なので、元々の数値オブジェクトは3という値が含まれていないのに、ファクター型に変換したものを再び数値型に変換すると3という値が含まれています。このような変換の仕様によって、回帰分析の値の中身が変わってしまっていたのでした。これを確かめるため、回帰分析の独立変数について最初の変数と、変換をした後の変数のそれぞれについて最初の6個の値をみてみましょう。
#最初の変数 head(IV) #ファクター型に変換した変数 head(IVc) #再び数値型に変換した変数 head(IVcn)
このように途中まで一見して同じ値の変数になっているので、特に注意が必要です。
対処法: 一旦文字列にしてから、数量データに変換する
では、何らかの理由でファクター型に変換されてしまった変数を、値を変えることなく再び数値型の変数にするにはどうすればよいのでしょうか。実は、直接数値型に戻さずに、一旦文字列型に戻してから、数値型に変換すると値を変えずに数値型オブジェクトに変換できます。
#一旦文字列型に変換 IVcch <- as.character(IVc) #文字列型の変数を数値型変数に変換 IVcchn <- as.numeric(IVcch) #最初の変数の最初の6個の値 head(IV) #変換後の変数の最初の6個の値 head(IVcchn)
*1:今回は変数の型を変換したことが明示的に示されるように別の変数への代入という方法を取っています。このままだとメモリを解放しないまま解析が進んでしまうので、サイズの大きなデータでは解析が進むにしたがってメモリの問題が深刻になることもあります。これを防ぐには、もう使わない変数をrm関数で削除したり、同じ変数名のまま上書きしていくなどの処理が有効です。