ネット小説テキストマイニング分析に追加

昨日一昨日の次のエントリに追加の図を加えた。
「小説家になろう」「ハーメルン」に登場するシステマを分析する - 火薬と鋼
「小説家になろう」「ハーメルン」に登場する形意拳を分析する - 火薬と鋼
追加分は名詞に限定して共起ネットワーク図にしたものだ。
サブネットワーク別による色分けはせず、中心性で色分けした。水色・白・ピンクの順に中心性が高い。
分かりやすくなるかと思って図を作り直したが、大差ないかもしれない。

分析を通じての雑感

  • 最初にテキストを収集する作業が面倒だが、単調なだけで難しくはない。
  • 実際に分析すると、とにかく余計な語が図に出てくるので、それを除外して出しなおすのが主な作業になる。
  • 小説ではキャラクターの名称とか戦闘シーンの描写に出てくる語句が混じってしまうわけだ。ひどい場合には「と」とか「見る」が共起ネットワーク図に出てくる。今回除外しなかったが、身体部位を示す語を除くかどうかも考慮したほうがいいだろう。
  • 逆に人名や技名など特殊な用語は設定しないとちゃんと検出してくれない。中国武術はこれが多い。
  • 登場作品数が多い武術では何日もかかる作業になることになるだろう。100〜200件程度なら簡単だが、多いものは大変な労力がいる。
  • 誰かもっと手軽にできるスキルがある人が色々な語でやってくれないものか。

以下に各エントリに追加したものと同じ図を出しておく。

小説家になろう」のシステマ分析追加

ハーメルン」のシステマ分析追加

小説家になろう」の形意拳分析追加

ハーメルン」の形意拳分析追加