1979年から現在にかけて、きのこの山派とたけのこの里派との間で繰り広げられているきのこたけのこ戦争に終止符を打つためにきのこの山、たけのこの里に関するツイートを集めて極性分析してみました。
今回の記事ではきのこの山、たけのこの里に関するツイートを同数集めて、ポジティブなツイートが多い方をきのこたけのこ戦争の勝者とします。
自然言語処理の感情分析技術の一つで、分析したい文章がポジティブ(正)な文章なのかネガティブ(負)の文章なのか判定する技術である。
「カントリーマァムはお美味しい。」
上記のような例文がある場合美味しいはポジティブな単語なので例文はポジティブな文だと分析される。
極性分析は、東北大学の乾・鈴木研究室の日本語評価極性辞書(用言編)[1] と日本語極性辞書(名詞編)[2] を用いて行います。
用言編では用言を中心に約5000件に人手でポジ(経験)、ポジ(評価)、ネガ(経験)、ネガ(評価)のタグが割り振られています。
名詞編では評価極性を持つ名詞、約8500表現に対してp(ポジティブ)、e(ネガティブ)、n(ニュートラル)のタグが割り当てられています。
きのこの山とたけのこの里に極性分析を行う実行手順は以下の通りになります。
1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
2. ツイートを分かち書きにする
3. 極性を求める
1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
今回ツイートはpythonでTwitterAPIを使うことができるtweepyを使用しました。
TwitterAPIでは過去一週間までのツイートを収集できるので一週間分収集しました。
またツイートの中にはきのこの山とたけのこの里の両方の言葉が入っているものもありましたが、今回はそういったものは除外しました。
2. ツイートを分かち書きにする
ツイートを分かち書きに変換するのにはMeCabを使用しました。また辞書はNEologd辞書を使用しました。
MeCabのインストール方法については下記の記事に書いているのでそちらを参考にしてください。
Python3でMeCabを動かしてみる(Windows10 64bit)
MeCabを使用すると文章を単語単位に分割できるので、これで日本語極性辞書が利用できます。
3. 極性を求める
今回極性は全てのポジティブな単語の重みを1、全てのネガティブな単語の重みを-1として計算していきます。
最終的に文に対する重みの合計が1以上の場合はポジティブな文、-1以下の場合はネガティブな文、0の場合とネガティブまたはポジティブの単語が文中に一つもない場合はニュートラルな文として判定していきます。
実験データとしてきのこの山が入っているツイートを3641件、たけのこの里が入っているツイートを4231件用意しました。
きのこの山とたけのこの里のツイート数をそろえないのはそれぞれに対しての過去一週間のツイート数も人気度に反映すると判断したからです。
以下がきのこの山とたけのこの里に関する極性分析の結果です。

結果は、ツイート数が多いたけのこの里の方がきのこの山よりもポジティブなツイート数が多いという結果になりました。当然と言えば当然な結果なのですがきのこの山派の私としては残念な結果となりました。
たけのこの里ときのこの山のネガティブ、ポジティブ、ニュートラルの割合をそれぞれいかに示します。


割合をみてもたけのこの里の方がポジティブなツイートが多いみたいなのできのこの山の完全敗北となりました。
どちらともポジティブなツイートよりもネガティブなツイートの方が多いのが面白いですね。
極性分析できのこたけのこ戦争に決着をつけてみた結果たけのこの里の大勝利という結果で終わりました。みなさん納得のいく結果だったでしょうか?
きのこの山派の私としてはとても悔しいのできのこの山のポジティブなツイート数を増やすために今度きのこの山botでも作ろうと思います。
収集したツイートの中には「きのこの山よりたけのこの里の方が好きだ」といった両方のワードが出てきたツイートもありましたので、もしまた次やることがあればそういったツイートも分析の対象としていれていけるようにしたいです。
こんなネタ記事をここまで読んでくださってありがとうございました。
参考
[1] 小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.
[2] 東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第14回年次大会論文集, pp.584-587, 2008. / Masahiko Higashiyama, Kentaro Inui, Yuji Matsumoto. Learning Sentiment of Nouns from Selectional Preferences of Verbs and Adjectives, Proceedings of the 14th Annual Meeting of the Association for Natural Language Processing, pp.584-587, 2008.
今回の記事ではきのこの山、たけのこの里に関するツイートを同数集めて、ポジティブなツイートが多い方をきのこたけのこ戦争の勝者とします。
極性分析とは
自然言語処理の感情分析技術の一つで、分析したい文章がポジティブ(正)な文章なのかネガティブ(負)の文章なのか判定する技術である。
「カントリーマァムはお美味しい。」
上記のような例文がある場合美味しいはポジティブな単語なので例文はポジティブな文だと分析される。
極性分析は、東北大学の乾・鈴木研究室の日本語評価極性辞書(用言編)[1] と日本語極性辞書(名詞編)[2] を用いて行います。
用言編では用言を中心に約5000件に人手でポジ(経験)、ポジ(評価)、ネガ(経験)、ネガ(評価)のタグが割り振られています。
名詞編では評価極性を持つ名詞、約8500表現に対してp(ポジティブ)、e(ネガティブ)、n(ニュートラル)のタグが割り当てられています。
実行手順
きのこの山とたけのこの里に極性分析を行う実行手順は以下の通りになります。
1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
2. ツイートを分かち書きにする
3. 極性を求める
1. Twitterから「きのこの山」 or 「たけのこの里」が入るツイートを集める
今回ツイートはpythonでTwitterAPIを使うことができるtweepyを使用しました。
TwitterAPIでは過去一週間までのツイートを収集できるので一週間分収集しました。
またツイートの中にはきのこの山とたけのこの里の両方の言葉が入っているものもありましたが、今回はそういったものは除外しました。
2. ツイートを分かち書きにする
ツイートを分かち書きに変換するのにはMeCabを使用しました。また辞書はNEologd辞書を使用しました。
MeCabのインストール方法については下記の記事に書いているのでそちらを参考にしてください。
Python3でMeCabを動かしてみる(Windows10 64bit)
MeCabを使用すると文章を単語単位に分割できるので、これで日本語極性辞書が利用できます。
3. 極性を求める
今回極性は全てのポジティブな単語の重みを1、全てのネガティブな単語の重みを-1として計算していきます。
最終的に文に対する重みの合計が1以上の場合はポジティブな文、-1以下の場合はネガティブな文、0の場合とネガティブまたはポジティブの単語が文中に一つもない場合はニュートラルな文として判定していきます。
きのこたけのこ戦争の結果
実験データとしてきのこの山が入っているツイートを3641件、たけのこの里が入っているツイートを4231件用意しました。
きのこの山とたけのこの里のツイート数をそろえないのはそれぞれに対しての過去一週間のツイート数も人気度に反映すると判断したからです。
以下がきのこの山とたけのこの里に関する極性分析の結果です。

結果は、ツイート数が多いたけのこの里の方がきのこの山よりもポジティブなツイート数が多いという結果になりました。当然と言えば当然な結果なのですがきのこの山派の私としては残念な結果となりました。
たけのこの里ときのこの山のネガティブ、ポジティブ、ニュートラルの割合をそれぞれいかに示します。


割合をみてもたけのこの里の方がポジティブなツイートが多いみたいなのできのこの山の完全敗北となりました。
どちらともポジティブなツイートよりもネガティブなツイートの方が多いのが面白いですね。
最後に
極性分析できのこたけのこ戦争に決着をつけてみた結果たけのこの里の大勝利という結果で終わりました。みなさん納得のいく結果だったでしょうか?
きのこの山派の私としてはとても悔しいのできのこの山のポジティブなツイート数を増やすために今度きのこの山botでも作ろうと思います。
収集したツイートの中には「きのこの山よりたけのこの里の方が好きだ」といった両方のワードが出てきたツイートもありましたので、もしまた次やることがあればそういったツイートも分析の対象としていれていけるようにしたいです。
こんなネタ記事をここまで読んでくださってありがとうございました。
参考
[1] 小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.
[2] 東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第14回年次大会論文集, pp.584-587, 2008. / Masahiko Higashiyama, Kentaro Inui, Yuji Matsumoto. Learning Sentiment of Nouns from Selectional Preferences of Verbs and Adjectives, Proceedings of the 14th Annual Meeting of the Association for Natural Language Processing, pp.584-587, 2008.