No science, No life.

もっと科学を身近に

MatlabでWebコンテンツを読み込む

Matlabでウェブページを読み込んで情報を自動抽出できたりしたら楽しそう!、ということで少しずつやってみます。

ウェブページのソースを読み込むのはめちゃくちゃ簡単で、webreadという関数で1行でできます。ためしに東京都の公式ページを読みこんでみます。

data = webread('http://www.metro.tokyo.jp/index.htm')

こんなふうに、ずらずらっとソースが表示されればオーケーです。

f:id:neocortex:20160803003404p:plain

HTMLタグが邪魔だというときには、正規表現を使うと、タグを消して本文だけを取り出すことができます (ここのコードを拝借しました)。

pat = '<[^>]*>'; 
data2 = regexprep(data, pat, '')

そうすると、ウェブページの本文がこんなふうに表示されます。ニュースサイトなどであれば、ここから頻出単語を抜き出して記事を特徴づける、というようなこともすぐに出来そうです。次回からもうちょっと遊んでみます。

f:id:neocortex:20160803004131p:plain