Python3でtweetの形態素解析を行うためにWindows10でMeCabの辞書をNEologd辞書に変更しようとしたら思いのほかてこずったので変更手順をまとめました。
MeCabをインストールしていることを前提として進めるのでまだインストールしていない方は下の記事を参考にしてください。
Neologd辞書とは佐藤敏紀(@overlast)が開発しているオープンソースのMeCabと共に使う単語分かち書き辞書です。
特徴として週二回以上という頻繁なペースで更新されているため新語や固有表現に強く、語彙数が多くなっています。
そのためSNSなどの新語が多い環境で自然言語処理を行う際一般的にNeologd辞書が使われています。
Linuxコマンドを使ってneologd辞書をインストールしていくので最初にコマンドプロンプトでLinuxコマンドを入力できるようにしていきます。
コントロールパネル > プログラム

Windowsの機能の有効化または無効化

Windows Subsystem for Linuxにチェックして再起動

Windows Subsystem for Linuxを有効にしたら次はMicrosoft StoreからUbuntuをインストールします。
Microsoft Storeを起動してUbuntuと検索したら下記の画面がでるので入手をクリックしてください。

インストールが完了したらUbuntuを起動してください。そうするとユーザ名とパスワードを入力するように指示がでますのでにゅうりょくしてください。
ユーザ登録ができたらパッケージを最新化するために下記のコマンドを入力してください。
下記のコマンドを入力してビルドに必要なものをインストールします。
コピー先は各自好みで指定してください。
上記の作業が全て完了したらWindowsで使えるか確認します。
下記のコードが動いたら正しくインストールできています。
実行結果は以下の通りになります。

ちなみに最初からMeCabに入っている辞書を使った場合の結果は以下の通りになります。

MeCabをインストールしていることを前提として進めるのでまだインストールしていない方は下の記事を参考にしてください。
【目次】
〇NEologd辞書とは
〇NEologd辞書のインストール
・動作環境
・コマンドプロンプトでLinuxコマンドをたたけるようにする
・NEologdをインストール
・NEologdがWindows10で使えるか確認
NEologd辞書とは
Neologd辞書とは佐藤敏紀(@overlast)が開発しているオープンソースのMeCabと共に使う単語分かち書き辞書です。
特徴として週二回以上という頻繁なペースで更新されているため新語や固有表現に強く、語彙数が多くなっています。
そのためSNSなどの新語が多い環境で自然言語処理を行う際一般的にNeologd辞書が使われています。
NEologd辞書のインストール
動作環境
本記事における動作環境は下記の通りになります。- Windows10 Home
- Python 3.6.7
コマンドプロンプトでLinuxコマンドをたたけるようにする
Linuxコマンドを使ってneologd辞書をインストールしていくので最初にコマンドプロンプトでLinuxコマンドを入力できるようにしていきます。
1. Windows Subsystem for Linuxを有効にする
コントロールパネル > プログラム

Windowsの機能の有効化または無効化

Windows Subsystem for Linuxにチェックして再起動

2. Ubuntuをインストール
Windows Subsystem for Linuxを有効にしたら次はMicrosoft StoreからUbuntuをインストールします。
Microsoft Storeを起動してUbuntuと検索したら下記の画面がでるので入手をクリックしてください。

3. ユーザ登録
インストールが完了したらUbuntuを起動してください。そうするとユーザ名とパスワードを入力するように指示がでますのでにゅうりょくしてください。
4. パッケージを最新化する
ユーザ登録ができたらパッケージを最新化するために下記のコマンドを入力してください。
sudo apt update
sudo apt upgrade
NEologdをインストール
1. ビルドに必要なものをインストール
下記のコマンドを入力してビルドに必要なものをインストールします。
sudo apt install mecab
sudo apt install libmecab-dev
sudo apt install make
2. UbuntuでNeologdをインストール
git clone https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
sudo bin/install-mecab-ipadic-neologd
3. NEologdをWindowsにコピーする
cd ..
sudo cp -R /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd/ /mnt/c/
コピー先は各自好みで指定してください。
NEologdがWindows10で使えるか確認
上記の作業が全て完了したらWindowsで使えるか確認します。
下記のコードが動いたら正しくインストールできています。
import MeCab
mecab = MeCab.Tagger("-Ochasen -d C:\mecab-ipadic-neologd")
print(mecab.parse("進撃の巨人の発売日だ"))
実行結果は以下の通りになります。

ちなみに最初からMeCabに入っている辞書を使った場合の結果は以下の通りになります。
