読者です 読者をやめる 読者になる 読者になる

No science, No life.

もっと科学を身近に

テキストデータを単語に分割して品詞などを判別する形態素解析

テキストデータ (文章) をパソコンで分析する場合、英語だと単語同士のあいだにスペースがあるので、どれが単語か見分けるのは簡単です。でも日本語の場合はスペースがないので、そう簡単にはいきません。

テキストデータを、言語的に意味を持つ最小の単位に分割して、品詞などを判別する作業を形態素解析というそうです。これをおこなってくれるオープンソースMeCab というソフトウェアがあったので、インストールしてみました。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

インストールして起動するとウィンドウがあらわれるので、テキストを入力してみましょう。「すもももももももものうち」を正しく認識して分析してくれます。すごい。

f:id:neocortex:20160806225700p:plain

でも平仮名だらけのテキストはやはり難しいようで、「何だか分かるか若旦那」はきちんと分解してくれますが、「なんだかわかるかわかだんな」は最後の「だんな」が1文字ずつにばらされてしまいました。

f:id:neocortex:20160806230137p:plain

ちなみに、「なんだか…」は始めから読んでも終わりから読んでも読みが同じ回文になっています (意味はないです…)。

入門 自然言語処理

入門 自然言語処理