「吾輩は猫である」のテキストを分析してみる (1)
青空文庫から夏目漱石の「吾輩は猫である」の全文をダウンロードして遊んでみます。テキストファイルをダウンロードして開いてみると下のようになっていました。
ヘッダと (上の画像では見えていませんが) フッタと、本文中にたくさんルビなどの注釈がついています。これらはテキスト分析にはいらないので除きます。
ヘッダ・フッタは1箇所だけなのでメモ帳で手動で消しました。本文中の注釈は膨大な量なので、Matlab で正規表現を使って消すことにしました。コードはこちら。
% load text data fileID = fopen('wagahaiwa_nekodearu.txt'); txt = fread(fileID,'*char')'; fclose(fileID); % remove annotations pat = '《[^》]*》'; txt = regexprep(txt, pat, ''); pat = '[#[^]]*]'; txt = regexprep(txt, pat, ''); pat = '|'; txt = regexprep(txt, pat, ''); % save text data fileID = fopen('neko.txt','w'); fprintf(fileID,txt); fclose(fileID);
これで、下のように注釈がとれたテキストneko.txtができました。