jnobuyukiのブログ

研究していて困ったことやその解決に関するメモ。同じように困ったあなたのために。twitter ID: @j_nobuyuki

R言語で形態素解析

今回は、MeCabというオープンソース形態素解析エンジンをRから使えるようにする方法を紹介します。いろいろな場所ですでに紹介のある内容ですが、紹介されているページのリンク先が有効でないこともあるので、2015年7月8日現在のやり方としてまとめておきます。

MeCabの説明

MeCabについての説明はこちらです。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

インストール方法

今回はMac (OS X 10.10)、R(3.2.0)の環境にMeCab0.996 とR用のパッケージRMeCabをインストールする方法です。

MeCab本体のインストール

1. Xcodeのインストール
AppStoreでXcodeと検索すれば、出てくるので、インストールします。

2. Xcode コマンドラインツールのインストール
https://developer.apple.com/downloads/

ここで

Command Line Tools(OS X 10.10) for Xcode 6.4

をダウンロードしてインストールします。
(OSや1でインストールしたXcodeのバージョンに注意)

3. MeCab本体のダウンロード
http://taku910.github.io/mecab/

に行くと、ダウンロードの項目の中にSourceというのがあり、mecab-0.996.tar.gzのダウンロードリンクからダウンロードします。(ダブルクリックでインストールしません)

4. MeCab用の辞書のダウンロード
3と同じサイトには辞書のダウンロードリンクもあります。
IPA辞書が推奨らしいので、IPA辞書mecab-ipadic-2.7.0-20070801.tar.gzのダウンロードリンクからダウン ロードします。

5. MeCab本体のインストール
ターミナルを起動して以下のコードを実行します。

cd ~ #3でダウンロードしたmecab-0.996.tar.gzの場所に移動します
tar zxvf mecab-0.996.tar.gz
cd mecab-0.996
./configure --with-charset="utf8"
make
sudo make install

6. MeCab用辞書のインストール
5と同じくターミナルで以下のコードを実行します。

cd ~ #4でダウンロードしたmecab-ipadic-2.7.0-20070801.tar.gzを指定して移動します
tar zxf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset="utf8"
make
sudo make install

7. MeCabのテスト
6までがうまくいっている場合、ターミナル内でMeCabを試せます。

mecab #MeCabの起動
すもももももももものうち

終わるときはctrl + cで終わります。

RMeCabのインストール

CRANからではなく、レポジトリを指定してインストールします。
インストールのタイプをバイナリからではなくソースにしたほうがうまく行くようです。
Rを起動して以下のコードをコンソールで実行します。

install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source")

9. RMeCabのテスト
ここまでがうまくいくとRMeCabをRのなかで実行できます。

library(RMeCab)#RMeCabパッケージの起動
unlist(RMeCabC("すもももももももものうち"))