「吾輩は猫である」のテキストを分析してみる (4)
「吾輩は猫である」のテキストを分析してみる (1)
「吾輩は猫である」のテキストを分析してみる (2)
「吾輩は猫である」のテキストを分析してみる (3)
前回、何も工夫せずに頻出単語を取りだすと、記号や助詞・助動詞ばかりがでてきました。作品の特徴を捉えた頻出単語帳を作ろうと思うと、品詞を絞ったほうがよさそうです。そこで今回は、名詞 (の一部) のみの頻出単語を並べてみました。
吾輩・寒月・先生・猫・細君などの単語が見えます。「吾輩は猫である」の特徴を捉えた単語帳になってきたでしょうか。コードは下の通りです。
% 形態素分析結果 result の読込 load('neko.mat') % 名詞を抽出 idx1 = strcmp(result(:,2),'名詞'); idx2 = strcmp(result(:,3),'非自立'); idx3 = strcmp(result(:,3),'数'); result_noun = result(idx1 & ~idx2 & ~idx3,:); % セル配列からカテゴリカル配列を作成 cat_array = categorical(result_noun(:,1)); % 単語カテゴリーを作成 category = categories(cat_array); % 各カテゴリの出現回数 counts = countcats(cat_array); % 出現回数を出現パーセントに変換 prct = counts/sum(counts)*100; % 出現パーセントに従って降順でソート [~,I] = sort(prct,'descend'); prct_sorted = prct(I); category_sorted = category(I); % グラフ表示 figure(1); clf x = 1:length(prct_sorted); y = prct_sorted; plot(x,y,'o-') xmax = 20; axis([0 xmax 0 prct_sorted(1)+0.2]) text(x(1:xmax),y(1:xmax)+0.1,category_sorted(1:xmax)) title('「吾輩は猫である」形態素分析') xlabel('名詞出現ランク') ylabel('名詞出現パーセント')
- 作者: 夏目漱石
- 出版社/メーカー: 新潮社
- 発売日: 2003/06
- メディア: 文庫
- 購入: 5人 クリック: 55回
- この商品を含むブログ (85件) を見る