前回まで形態素解析の話をしてきました。
ただ、内容としてはKH-Coderを使って遊んでみました程度で、解析というのもおこがましい内容です。これで解析というと研究者の方々には怒られてしまいます。
文書評価は難しい
前回までは、ブログ文書の語彙の出現頻度の変化でテーマや興味がどう変わってきたかを見てみました。ただし、これは語彙の出現頻度の傾向を見ているだけで、ブログの文書がよくなったという話ではありません。もし、本来文書の良し悪しを測るのであれば、
- 優れている文書と比較する
- 優れている文書にあるルールに従っているかを調べる
といったことが必要かと思います。(そもそも優れた文書をどう定義するかの問題があるのですが。。。)
前者に関しては、なんらかの文書の語の出現頻度と比較することで何か言えそうです。たとえば、国立国語研究所のコーパスなどが使えそうです。
こちらには、雑誌・書籍、国会会議録等々の文書から語彙が収集されており、出現頻度も出ています。こういった語彙表と自分の文書の語彙を比較すると特徴がわかるかもしれません。
例えば、「わかる」、「理解する」など同義語については、一般には頻度の低いものを自分のブログで多様しているような場合は、難しい、聞きなれない文書になっていると言えそうです。
また、文書のルールを設定して評価をする方法としては、エッセイの評価などの研究があります。
『小論文およびエッセイの自動評価採点における研究動向』(石岡 恒憲)
http://www.rd.dnc.ac.jp/~tunenori/doc/231_p17_24.pdf
特に英語のエッセイ評価などは進んでおり、e-raterという英文エッセイの評価エンジンもあります。
About the e-rater Scoring Engine
文書を書く必要があるのか
さて、こういった文書の評価ツールは今は英語が中心ですが、いずれ日本語でもでてくるのかと思います。大学入試の論文テストの評価はいずれ自動化され、就職試験の採点や、ビジネスの提案書の添削等もツールが行ってくれる時代は目の前に来ているかもしれません。。AIで適切な文書で学習させればすぐにできそうです。
しかしながら、ツールで評価できるなら、そもそも文書もAIに書かせればよいのではないかと。
実際、AIに文書を書かせようということで、こんなのもあります。
ただ、これは人がかなり手助けをしてできている文章ということで、まだまだ自動化というレベルではないようです。
日本語は処理が難しい、研究者が少ない等あるのですが、英語ならすでに文書の自動生成サービスが実用化されています。
いくつかの単語を入れると文書が自動的に作成されるようです。
ちなみに、ファイナンス系の速報などは、すでに自動生成のようです。
さて、いずれブログもAIで作られるようになるのでしょう。そうなると自動生成されたアフィリエイトサイトが大量にでてくる時代になるのかと思います。
そのときに、どのブログがAIで、どのブログがAIでないかを判別できるのかはわかりません。
恐らくAIブログが出現した初期の段階では、AIでアフィリエイト記事を書いていると叩かれるかもしれません。そうなると、人間っぽい誤字脱字や表現のゆれなどを入れたAIが登場するかもしれません。
最終的には、AIなのか人なのか判別できない時代が訪れ、もうそういった区別すら意味をなさなくなるかもしれません。
人が文書を書かなくなる時代になり、文書を書くのは一部の道楽になるのかもしれません。
(東大の松尾先生の本です。素人にもわかりやすく、深く書かれています。)
(当面は文書を書く必要があるので、ぜひ書き方の勉強を)
- 作者: バーバラミント,Barbara Minto,山崎康司
- 出版社/メーカー: ダイヤモンド社
- 発売日: 1999/03
- メディア: 単行本
- 購入: 76人 クリック: 775回
- この商品を含むブログ (282件) を見る