2017.10.05
今年のハロウィンの傾向を分析今年のハロウィンは10月31日(火)です。10月に入り、世の中はハロウィンモードですね!
Twitterにはハロウィンに関する投稿がどんどん増えてきています。
今回はWatson Explorerの辞書登録機能を活用し、ここ最近のTwitterの投稿2万件から、今年のハロウィンについて分析してみます。
1番盛り上がっている都道府県は予想通りの場所?!
ハロウィンについて投稿された文章から、どの都道府県が一番盛り上がっているかを分析してみます。
都道府県のキーワードを探し出すために、今回は辞書機能を使います。
分析の準備として、まずは都道府県の辞書をエクセルで作成します。
辞書はCSV形式であればエクセル以外のソフトでも作成可能です。
A列には辞書に登録するキーワード、B列にはA列の等価語を入力します。
A列に都道府県名、B列以降には区と市の一覧を入力しました。
こうして等価語を設定することで、例えば「名古屋」というキーワードがあれば、愛知県の投稿があったと分析できます。
この都道府県の辞書を使った分析結果は「都道府県」ファセットに表示する設定をしました。
ちなみに、WEB画面上からも辞書の設定変更が可能です。
さて、分析結果は次の通り!
予想通り、ダントツで東京都が盛り上がっているようです。
当然といえばそうなのですが、必ずしも大都市順となっていないところが面白いですね。
「パリピ」と「ナゴウィン」を知っているWatson Explorer!
では、東京都ではどんなキーワードが注目されているのでしょうか。
対象を東京都に絞り込み分析をしました。
投稿の件数が多かったものほど大きな文字になっています。
また、2位にランクインした愛知県についても同様に分析しました。
2つの結果を見比べると、県民性が見えてきますね。
東京都ではハロウィンをパーティーとして楽しむ傾向がありそうです。
パーティーピーポーの略「パリピ」という言葉も出ています。
ちなみにこの「パリピ」というキーワードは、属にいう「新語」と呼ばれる部類ですが、Watson Explorerは名詞としてしっかりと抽出できています。
一方愛知県では、ハロウィンに関連するライブで楽しむ傾向がありそうです。
「ナゴウィン」(NAGOWeeEEN)というライブをするほどハロウィンで盛り上がっているようです。
不要キーワードを削除して分析しやすくするテクニック
Watson Explorerは文章データを分析し、品詞分解しています。名詞・動詞・形容詞・・・etc
ここで、名詞を抽出した結果を見るとハロウィンとは関係のないキーワードが分析の妨げになっていることがわかります。
今回は、この不要キーワードを削除することで、分析しやすくするテクニックをご紹介します。
Watson Explorerの2つの機能を使って名詞を整理していきます。
- 辞書機能
- レポート作成機能
・レポート作成機能
まずは、レポート作成機能によって、名詞の一覧をcsvファイルへ出力します。
そして、出力したCSVファイルを人間の手で整理します。
・辞書機能
上記で整理した辞書用データを、都道府県の辞書を登録した際と同様の手順でWatson Explorerへ登録します。
登録をすると、下記の右側画像のとおり整理された名詞用のファセットが出来上がりました。
不要なキーワードが取り除かれたことで、より分析しやすくなりました。
例えば、名詞と好評表現をクロス分析させた結果を、名詞の辞書登録前と登録後で比べてみます。
ここで、ヒートマップのご紹介になりますが、面積が大きいほど件数が多いということです。
辞書登録後には、例えばディズニーについての投稿は、USJについての投稿より多いということや、ハロウィンについておいしいと感じた人よりも楽しいや可愛いと感じた人が多いということがわかります。
下の図の辞書登録後のヒートマップをご覧いただくと、さらに分析しやすいヒートマップになっていることがわかりますね。
今回は辞書登録の例を2つご紹介しました。
1つめは、一般的な情報を辞書として登録する方法、
2つめは、分析するデータに特化した情報を辞書として登録する方法です。
テキストマイニングにとって、もっとも重要になるのは単語を判定するための”辞書”と言われています。
今回の2つの例でも、辞書の利用によって分析結果の質がとても上がったことがわかります。
ぜひ辞書機能を使いこなして、Watson Explorerを有効にご活用いただけたらと思います。