テキストデータを単語に分割して品詞などを判別する形態素解析
テキストデータ (文章) をパソコンで分析する場合、英語だと単語同士のあいだにスペースがあるので、どれが単語か見分けるのは簡単です。でも日本語の場合はスペースがないので、そう簡単にはいきません。
テキストデータを、言語的に意味を持つ最小の単位に分割して、品詞などを判別する作業を形態素解析というそうです。これをおこなってくれるオープンソースの MeCab というソフトウェアがあったので、インストールしてみました。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
インストールして起動するとウィンドウがあらわれるので、テキストを入力してみましょう。「すもももももももものうち」を正しく認識して分析してくれます。すごい。
でも平仮名だらけのテキストはやはり難しいようで、「何だか分かるか若旦那」はきちんと分解してくれますが、「なんだかわかるかわかだんな」は最後の「だんな」が1文字ずつにばらされてしまいました。
ちなみに、「なんだか…」は始めから読んでも終わりから読んでも読みが同じ回文になっています (意味はないです…)。
- 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/11/11
- メディア: 大型本
- 購入: 20人 クリック: 639回
- この商品を含むブログ (44件) を見る