としおの読書生活

田舎に住む社会人の読書記録を綴ります。 主に小説や新書の内容紹介と感想を書きます。 読書の他にもワイン、紅茶、パソコン関係などの趣味を詰め込んだブログにしたいです。

2018年12月

1979年から現在にかけて、きのこの山派とたけのこの里派との間で繰り広げられているきのこたけのこ戦争に終止符を打つためにきのこの山、たけのこの里に関するツイートを集めて極性分析してみました。

今回の記事ではきのこの山、たけのこの里に関するツイートを同数集めて、ポジティブなツイートが多い方をきのこたけのこ戦争の勝者とします。




極性分析とは


自然言語処理の感情分析技術の一つで、分析したい文章がポジティブ(正)な文章なのかネガティブ(負)の文章なのか判定する技術である。

「カントリーマァムはお美味しい。」

上記のような例文がある場合美味しいはポジティブな単語なので例文はポジティブな文だと分析される。

極性分析は、東北大学の乾・鈴木研究室の日本語評価極性辞書(用言編)[1] と日本語極性辞書(名詞編)[2] を用いて行います。

用言編では用言を中心に約5000件に人手でポジ(経験)、ポジ(評価)、ネガ(経験)、ネガ(評価)のタグが割り振られています。

名詞編では評価極性を持つ名詞、約8500表現に対してp(ポジティブ)、e(ネガティブ)、n(ニュートラル)のタグが割り当てられています。



実行手順


きのこの山とたけのこの里に極性分析を行う実行手順は以下の通りになります。

1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
2. ツイートを分かち書きにする
3. 極性を求める


1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
今回ツイートはpythonでTwitterAPIを使うことができるtweepyを使用しました。

TwitterAPIでは過去一週間までのツイートを収集できるので一週間分収集しました。

またツイートの中にはきのこの山とたけのこの里の両方の言葉が入っているものもありましたが、今回はそういったものは除外しました。


2. ツイートを分かち書きにする
ツイートを分かち書きに変換するのにはMeCabを使用しました。また辞書はNEologd辞書を使用しました。

MeCabのインストール方法については下記の記事に書いているのでそちらを参考にしてください。

Python3でMeCabを動かしてみる(Windows10 64bit)

MeCabを使用すると文章を単語単位に分割できるので、これで日本語極性辞書が利用できます。


3. 極性を求める
今回極性は全てのポジティブな単語の重みを、全てのネガティブな単語の重みを-1として計算していきます。

最終的に文に対する重みの合計が1以上の場合はポジティブな文、-1以下の場合はネガティブな文、0の場合とネガティブまたはポジティブの単語が文中に一つもない場合はニュートラルな文として判定していきます。



きのこたけのこ戦争の結果


実験データとしてきのこの山が入っているツイートを3641件、たけのこの里が入っているツイートを4231件用意しました。

きのこの山とたけのこの里のツイート数をそろえないのはそれぞれに対しての過去一週間のツイート数も人気度に反映すると判断したからです。

以下がきのこの山とたけのこの里に関する極性分析の結果です。

kinokotakenoko1

結果は、ツイート数が多いたけのこの里の方がきのこの山よりもポジティブなツイート数が多いという結果になりました。当然と言えば当然な結果なのですがきのこの山派の私としては残念な結果となりました。

たけのこの里ときのこの山のネガティブ、ポジティブ、ニュートラルの割合をそれぞれいかに示します。
kinokotakenoko3
kinokotakenoko2

割合をみてもたけのこの里の方がポジティブなツイートが多いみたいなのできのこの山の完全敗北となりました。

どちらともポジティブなツイートよりもネガティブなツイートの方が多いのが面白いですね。



最後に


極性分析できのこたけのこ戦争に決着をつけてみた結果たけのこの里の大勝利という結果で終わりました。みなさん納得のいく結果だったでしょうか?

きのこの山派の私としてはとても悔しいのできのこの山のポジティブなツイート数を増やすために今度きのこの山botでも作ろうと思います。

収集したツイートの中には「きのこの山よりたけのこの里の方が好きだ」といった両方のワードが出てきたツイートもありましたので、もしまた次やることがあればそういったツイートも分析の対象としていれていけるようにしたいです。

こんなネタ記事をここまで読んでくださってありがとうございました。


参考
[1] 小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.

[2] 東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第14回年次大会論文集, pp.584-587, 2008. / Masahiko Higashiyama, Kentaro Inui, Yuji Matsumoto. Learning Sentiment of Nouns from Selectional Preferences of Verbs and Adjectives, Proceedings of the 14th Annual Meeting of the Association for Natural Language Processing, pp.584-587, 2008.









DSC_3368


Amazon Cyber Monday Sale (サイバーマンデーセール) 2018で『Anker PowerCore 10000』が普段より700円ほど安い2099円で売っていたので購入しました。

以前使っていた『Anker PowerCore 15600』が劣化しつつあったので安く購入できてラッキーでした。

色は黒、白、赤の三色があったのですが今回は見た目はあまり気にせず一番値段が安かったという理由で
を購入しました。

商品が届くとモバイルバッテリーの小ささに驚かされてしまいました。文庫本と比較すると文庫本の半分ほどのサイズです。

DSC_3366


箱がぶ厚かったので以前使っていたものよりも厚くなっているのかと思ったのですが箱を開けてみると箱の厚さの半分ほどしかないサイズのモバイルバッテリーが現れまたまた驚かされてしまいました。

以前使用していたものとサイズを比べてみると半分ほどの大きさとなっていました。

DSC_3369


以前使用していたものの容量が15600で今回新たに購入したもののサイズが10000ということで容量は少し落ちるのですが、2、3泊の旅行で使用するぶんにはあまり影響はないと思います。

Anker PowerCore 10000』を買ってよかったと思ったのですが一点だけ残念な点がありました。

それはポートが一つしかないということです。

スマホしか使わない人には問題ないのでしょうが私は。タブレットを外出で持っていくことがあるのでスマホとタブレットの同時充電ができないのだけが残念です。

購入する前に確認していない私が悪いんですけどね…。

DSC_3371


なのでもし複数受電をしたいと思う人は購入する際に注意してください。




最後に

Anker PowerCore 10000』はセールをしていないときでも3000円未満の値段で購入できるのでもしどのモバイルバッテリーを買うか悩んでいる人がいたらこの製品がおすすめです。

また、急速充電の機能が欲しい場合は本製品とは別に『Anker PowerCore Speed 10000 QC』があるのでそちらの購入をおすすめします。





↑このページのトップヘ