形態素解析 品詞数比較

 23, 2016 05:00
 知的障がい者向け季刊誌「ステージ」と「朝日新聞」のテキスト品詞数の違いについて解析した結果が以下の引用である。
 橋本氏が大阪市長選に当選した時の内容を扱った記事について比較した。
 各テキストにおいて、それぞれどのぐらい品詞を用いているかを明らかにしたものだ。
  
 本論文の紹介は第8回目となる。



【引用はじめ】

 知的障がい者のコミュニケーション支援に向けたテキスト分析
 工藤 瑞香 大塚 裕子(公立はこだて未来大学システム情報科学部)
 打浪(古賀)文子(淑徳短期大学こども学科)
 言語処理学会 第19回年次大会 発表論文集 (2013年3月)
 file:///C:/Users/仁/AppData/Local/Microsoft/Windows/INetCache/IE/Y5LKSS8K/B4-5.pdf

3.4. 形態素解析

  「ステージ」の文章構造や言語表現の特徴に着目し,オープンソース形態素解析エンジ ン「Mecab」を用いて形態素解析した結果を以下に示す.
 「ステージ(句点)」は単純に句点で区切られた文での解析結果であり,「ステージ(原文)」はステージの原文をそのまま解析したもの,つまり,改行が多く用いられた状態での結果である.

各テキストの品詞数

ステージ(句点) 品詞数=5425  最小数=2  最大数=54  平均数=16.25

ステージ(原文) 品詞数=5455  最小数=2  最大数=27  平均数=7.01

朝日新聞  品詞数=5741  最小数=5  最大数=83 平均数=27.08

(つづく)

【引用終わり】



 品詞数では、大きな違いがない。
 ただ、一文章で比較すると大きく違ってくる。
 また、「ステージ」の記事における、改行した原文だと、句点のものと比べて品詞数が少なくなることがわかる。
 わかりやすくするには、改行をうまく使うことが重要ということがわかる。
 
 (ケー)
関連記事

COMMENT 0

WHAT'S NEW?