No science, No life.

もっと科学を身近に

「吾輩は猫である」のテキストを分析してみる (1)

青空文庫から夏目漱石の「吾輩は猫である」の全文をダウンロードして遊んでみます。テキストファイルをダウンロードして開いてみると下のようになっていました。

f:id:neocortex:20160827234426p:plain

ヘッダと (上の画像では見えていませんが) フッタと、本文中にたくさんルビなどの注釈がついています。これらはテキスト分析にはいらないので除きます。

ヘッダ・フッタは1箇所だけなのでメモ帳で手動で消しました。本文中の注釈は膨大な量なので、Matlab正規表現を使って消すことにしました。コードはこちら。

% load text data
fileID = fopen('wagahaiwa_nekodearu.txt');
txt = fread(fileID,'*char')';
fclose(fileID);

% remove annotations
pat = '《[^》]*》'; 
txt = regexprep(txt, pat, '');
pat = '[#[^]]*]'; 
txt = regexprep(txt, pat, '');
pat = '|'; 
txt = regexprep(txt, pat, '');

% save text data
fileID = fopen('neko.txt','w');
fprintf(fileID,txt);
fclose(fileID);

これで、下のように注釈がとれたテキストneko.txtができました。

f:id:neocortex:20160827235233p:plain