MatlabでWebコンテンツを読み込む
Matlabでウェブページを読み込んで情報を自動抽出できたりしたら楽しそう!、ということで少しずつやってみます。
ウェブページのソースを読み込むのはめちゃくちゃ簡単で、webreadという関数で1行でできます。ためしに東京都の公式ページを読みこんでみます。
data = webread('http://www.metro.tokyo.jp/index.htm')
こんなふうに、ずらずらっとソースが表示されればオーケーです。
HTMLタグが邪魔だというときには、正規表現を使うと、タグを消して本文だけを取り出すことができます (ここのコードを拝借しました)。
pat = '<[^>]*>'; data2 = regexprep(data, pat, '')
そうすると、ウェブページの本文がこんなふうに表示されます。ニュースサイトなどであれば、ここから頻出単語を抜き出して記事を特徴づける、というようなこともすぐに出来そうです。次回からもうちょっと遊んでみます。