twitterから「蕎麦」でツイートされた文章をエクセル2013で集計しKHコーダーでテキストマイニングしてみた

この記事は約3分で読めます。

蕎麦でテキストマイニングエクセル2013には無料で使える「twitter分析アプリ」がある。特定の言葉をtwitterでツイートされた膨大なデータから最大18000ツイートをエクセル形式で抽出できる。そのままだと分析はなかなかむずかしい。そこでテキストマイニングを試してみた。
このエクセルデータを分析で使えるようにノイズを消して整えてからテキストマイニングにかける。テキストマイニングは無料で使える「KHコーダー」を使ってみた。共起ネットワークの図を見ると、それだけでテキストマイニングっぽくなるのがすごい。

エクセル2013のTwitter分析アプリでデータ取得

Twitter分析アプリで蕎麦関連のツイートを取得

Twitter分析アプリで蕎麦関連のツイートを取得した。そのままだとRT(リツイート)回数が多いツイートが多数出現してしまうので、代表的なツイートを一つ残しその行にリツイート数を記録することにした。直近1週間のツイートでノイズを除去すると約1400行ほどになった。

KHコーダーで共起ネットワークを表示

KHコーダーを使ってこのエクセルを読み込んで分析する。xlsのままだと文字コードをうまく読んでくれなかったので、エクセルをcsv形式にしてシフトJIS設定で読みこませた。

KHコーダーの設定

出現頻度の多い文字を大きくしたり、共起される言葉のつながりの線を太くするなど設定をもっと進めると、目に見えてわかりやすい共起ネットワーク表ができる。

蕎麦の共起ネットワーク

なんとなく関連性の強さがわかるのがおもしろい。使えるAIとまではいかないかもしれないが、もう少し使い込んで実際のビジネスに使えるようにしてみたい。

▼KH Coder (http://khc.sourceforge.net/より)
KH Coderとは、テキスト型(文章型)データを統計的に分析するためのフリーソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまな社会調査データを分析するために制作しました。「計量テキスト分析」または「テキストマイニング」と呼ばれる方法に対応。

▼ウィキペディアより一部引用

KH Coderを用いて行われた研究としては、アンケートの自由回答項目・新聞記事・インタビューデータなど様々なデータを分析した事例がある。
KH CoderはPerlによって作製されており、バックエンドとしてChaSen・MeCab・MySQL・R言語・Stanford POS Tagger・Snowball Stemmer・TermExtractなどを利用している。すべての機能をマウス操作で利用することができるが、より高度な検索・分析のために直接MySQLにアクセスして独自の検索を行ったり、R言語に修正を加えることで統計分析をカスタマイズすることができる。また短いPerlスクリプトを書くことでプラグインを作成し、独自の機能を付け加えることもできる。