中堅企業IT部門の日常

中堅企業IT部門の中間管理職で半研究者の雑談です。毎週火曜日更新予定

ブログはどうかわったか - 形態素解析1

前回前々回と語彙の話をしてきました。他にも、文書の書き方本は多々読んでいるのですが、結果としてブログの文書は進歩しているのか、それが最大の関心事です。

そこで形態素解析を用いて、自分の文書を定量化し傾向を見てみようというのが今回の趣旨です。

文書の良し悪しを評価するのは、かなり難しいのですが、語彙のバラエティーの増減や語彙の変遷は定量的に把握できそうです。まずは、そこからチャレンジしてみようかと。

ちなみに、こちらにもブログを形態素解析した方がいるようです。ご参考までに。

d.hatena.ne.jp

 

KH-Coder

さて今回は、KH-Coder(樋口耕一 / HIGUCHI, Koichi)を利用して、2014年から2016年にかけて、ブログの語彙の傾向がどう変わってきたのかを分析してみます。KH-Coderを使うと、文書を形態素に分解し、出現頻度をカウントしたり、対応分析、共起ネットワーク分析といった統計的な分析が簡単に行えます。

KH-Coderは、立命館大学 産業社会学部 樋口耕一准教授の開発した解析ツールです。前述のサイトからダウンロードできます。

 

Windowsであれば、ワンクリックでインストールできるのが大変秀逸です。KH-Coderを使い分析した論文と、KH-Coderの使い方が載っている書籍もありますので、興味ある方はどうぞ。 

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

 

 

ブログのダウンロードと整形

まず、これまでのブログ記事をダウンロードします。はてなブログのエクスポートはこちら

記事データをエクスポートできるようにしました。ブログのバックアップ等にご利用ください - はてなブログ開発ブログ

 さて、このエクスポートですが、細かな設定ができず、MT形式、UTF-8

でエクスポートされます。

 

もとのMT形式では、

<p>週間ダイヤモンドのAI特集では、AIによって消える職種というのが掲載されています。</p>
<p></p>
<div class=”freezed”> 

 というようにHTMLタグがあるので、このまま解析すると、<div>や<p>が大量に認識され、コンテンツの内容が分析されません。

 

また、

AUTHOR: systembu
TITLE: 消える職種 

 といったように、AUTHOR, TITLEといったタグも除去しておかないと、頻出後として認識されてしまいます。

KH-Coderには、特定の語彙をカウントしないといった設定も可能ですが、設定の手間を考えるとテキストファイルから事前に不要なタグ類は外しておいた方が楽そうです。

 

今回はpythonで正規表現を書いて、不要なタグを除去することにしました。具体的には以下のような処理を行います。

  • HTMLタグをマッチさせて除去します。 →"<[^>]*?>"
  • タイトルをマッチさせて、TITLE:タグだけ除去します。タイトル名は残します
  • BASENAME:タグには、ブログの投稿日時が含まれているので、年だけ残して、<H1></H1>タグで括ります。
  • その後不要なタグ及びそれに付帯する文字列を削除します。 "\A-+|\A[A-Z ]+:.*|\A[一-龥ァ-ン/ー]+:.*|\A[この商品を含むブログ ].*"

 結果として、こんな感じになります。

<H1> 2016</H1>
週間ダイヤモンドのAI特集では、AIによって消える職種というのが掲載されています。
週刊ダイヤモンド 2016年 8/27 号 [雑誌] (勝者のAI戦略)
士業が狙われる
2015年にオックスフォード大学が発表した消える職種。
spotlight-media.jp
その中では、機械化代替率が高く、平均年収も高い職種が狙われると述べており、公認会計士、税理士、不動産鑑定士などの士業が狙われると言われています。

また、KH-Coderでは文字コードが、S-JISからEUCですので、このままでは解析が行えませんので、文字コードも変更します。

 

さてここまでくれば、次はKH-Coderの出番です。

 

つづく

ブログランキング・にほんブログ村へ