渡る世間は自然言語ばかり #東京スクラッパー
DESCRIPTION
第1回Webスクレイピング勉強会@東京の発表資料。TRANSCRIPT
http://pixabay.com/ja/%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88-%E3%83%AA%E3%83%86%E3%83%A9%E3%82%B7%E3%83%BC-%E6%96%87%E5%AD%97-%E8%AA%AD%E3%81%BF%E5%8F%96%E3%82%8A-%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88%E9%A0%86-99374/
第 1 回 Web スクレイピング勉強会 @ 東京( # 東京スクラッパー)
渡る世間は自然言語ばかり〜単語分割 /品詞特定で獲得データ量倍増!〜
@nezuq
Web データは、構造化されていない……というか、自然言語( ex. 普通の会話文)ばかり……
Python - PDF PDFMiner PDF - Qiitahttp://qiita.com/nezuq/items/75e8366d68c66e徹底攻略 オープンデータ。 で始める テキスト分析。56ff53
これ /を /構造 /化 /でき /たら /、 /データ量 /倍増 /な /のに /なぁ /!
感情分析とかもできちゃうのになぁ!
Good
・嫌い
・暗い・辛い・気持ち悪い
・悪魔・バカ ……
・好き
・明るい・楽しい・気持ちいい
・天使・天才 ……
ミクさんマジ天使!
Bad
できます!
ツールはいっぱいある。代表的なツールとして、3つを紹介!
・ MicrosoftOffice Word ( Word-VBA )・ Yahoo API (日本語形態素解析 API )・ MeCab
MicrosoftOffice Word
WordVBA の Document.words プロパティで、文書内の単語を配列として取得できる。
※ただし、候補が2つ以上の場合は、両方とも取得される。
Sub 分かち書き () Set doc = Documents.Add For Each wrd In ThisDocument.Words doc.Content.InsertAfter wrd & "/" NextEnd Sub
ミク / さん /マジ / 天使 / ! /
参考:WordVBAで分かち書き - Qiita
Yahoo API
日本語形態素解析 API で、文書内の単語を品詞付き XML として取得できる。
※ただし、使用回数と文章量に限界がある。
http://jlp.yahooapis.jp/MAService/V1/parse?appid=< あなたのアプリケーションID>&results=ma,uniq&uniq_filter=9%7C10&sentence= ミクさんマジ天使!
<word><surface> ミク </surface><reading> みく </reading><pos> 名詞 </pos><baseform> ミク </baseform></word> ……
参考:テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
MeCab
オープンソースの形態素解析エンジンで、文書内の単語を品詞付き CSV として取得できる。
※使用回数に限界はなく、長文も対応できる。
$ mecabミクさんマジ天使!
ミク 名詞 , 固有名詞 , 人名 , 名 ,*,*, ミク , ミク , ミクさん 名詞 , 接尾 , 人名 ,*,*,*, さん , サン , サンマジ 名詞 , 一般 ,*,*,*,*, マジ , マジ , マジ , ニコニコ大百科天使 名詞 , 一般 ,*,*,*,*, 天使 , テンシ , テンシ , ニコニコ大百科! 記号 , 一般 ,*,*,*,*, ! , ! , !
参考:MeCab: Yet Another Part-of-Speech and Morphological Analyzer
ただし、 MeCab は新語・俗語に弱い。
辞書を拡張する。代表的なデータ元として、3つを紹介!
実際の追加方法は「 < サイト名 > mecab 辞書」でググる。
・ Wikipedia・はてなキーワード・ニコニコ大百科
自然言語処理を楽しもう!
自然言語 名詞 , 固有名詞 ,*,*,*,*, 自然言語 ,*,*,wikipedia_word,処理 名詞 , サ変接続 ,*,*,*,*, 処理 , ショリ , ショリを 助詞 , 格助詞 , 一般 ,*,*,*, を , ヲ , ヲ楽しも 動詞 , 自立 ,*,*, 五段・マ行 , 未然ウ接続 , 楽しむ , タノシモ , タノシモう 助動詞 ,*,*,*, 不変化型 , 基本形 , う , ウ , ウEOS