nicoteki_1: コピー&ペーストのみで始めるテキストマイニング超入門
Post on 27-Jun-2015
14.454 Views
Preview:
TRANSCRIPT
コピー&ペーストのみで始める
テキストマイニング超入門
@langstat
第1回 にこにこテキストマイニング勉強会
於 Oracle青山センター
2011年2月19日(土)
1
自己紹介
• 小林 雄一郎 (こばやし ゆういちろう)
– 大阪大学言語文化研究科/日本学術振興会
– 関心領域(「専門領域」ではない):
コーパス言語学・統計的テキストマイニング
2
最近の主な研究テーマ
• 日本人英語学習者の英作文をマイニング
– 機械学習を用いた英語習熟度の自動推定
– 日本人英語と母語話者英語の差異の分析
– 様々な母語を持つ学習者のクラスタリング etc. etc.SEM>=38.65 SEM< 38.65
3
FRM>=4.543 BOO>=22.13SEM>=12.67 HED< 5.799
FRM< 4.543 BOO< 22.13SEM< 12.67 HED>=5.799NNS85/4 NS 0/3
NNS7/0 NS 0/5 NNS3/1 NS 5/87
今回の発表にいたる経緯
ある日、タイムラインを見ていたら、突然。。。
4
テキストマイニングの一般的な流れ (1)
データ構築データ構築データ構築データ構築 テキスト処理テキスト処理テキスト処理テキスト処理 統計処理統計処理統計処理統計処理 質的分析質的分析質的分析質的分析
5
テキスト収集
電子化
etc.
語彙表の作成
用例の抽出
etc.
検定
多変量解析
etc.
結果の解釈
実質科学的な考察
etc.
テキストマイニングの一般的な流れ (2)
6
NLP pipeline (Bird et al., 2009)
プログラミングとか統計とか無理ぽ。。。
• 文系だから、プログラミングはできないよ (ToT)
• お金がないから、高いツールは買えないよ (>_<)
• ゆとり世代だから、努力はしたくないよ (x_x;)
7
↓
@各位 【急募】【緊急拡散】【速報】【RT希望】【重要】
お金をかけずに、コピー&ペーストだけで、テキストマイ
ニングっぽいことをする方法
ただでテキストをげっと☆
• 青空文庫
– http://www.aozora.gr.jp/
– 著作権の切れた小説、詩、評論などをフリーで提供(日本
語)
8
語)
• Project Gutenberg
– http://www.gutenberg.org/wiki/Main_Page
– 著作権の切れた小説、詩、評論などをフリーで提供(英語
など)
何となく、用例検索
• 単純に語句を検索するだけなら。。。
– WordやAdobe Readerの「検索」機能で十分
– Excelの「並べ替え」や「フィルタ」も意外といい仕事をする
• もうちょっと複雑な検索をするのなら。。。
9
• もうちょっと複雑な検索をするのなら。。。
– エディタで正規表現を使った検索
– サクラエディタ (Windows)
http://sakura-editor.sourceforge.net/index.html.ja
– Text Wrangler (Mac)
– http://www.barebones.com/products/textwrangler/
↓
– ただ、正規表現を覚えるのが(無理|面倒)
コピペで形態素解析 (1)
• テキスト解析デモ - 日本語形態素解析
– http://cgi.geocities.jp/ydevnet/sample/jlp/sample2/ma_sample.php
(1) 解析したい文章をココにコピー
&ペースト
10
&ペースト
(2) 出力形式を指定(何も指定しな
いと、分かち書きのみ)
(3) 「解析」ボタンをポチッ!
分かち書きだん!!
V(^0^)V
11
品詞情報付与だん!!
♪d(^0^)b♪
コピペで形態素解析 (2)
• Language Grid Playground (Morphological Analyzer)
– http://www.langrid.org/playground/morphological-
analyzer.html
解析に使う
アルゴリズ
12
アルゴリズ
ムを選ぶこ
とができる
多言語
データの
解析が
可能
MeCabで解析してみたよ
13
MeCabで解析してみたよ
(o^-^o)
コピペで構文解析
• Language Grid Playground (Dependency Parser)
– http://www.langrid.org/playground/dependency-
parser.html
14
解析に使う
アルゴリズ
ムを選ぶこ
とができる
CaboChaで解析してみたよ
(o^-^o)
15
(o^-^o)
Word (VBA) で頻度表を作る
• 日本語文章の頻度分析
– http://hp.vector.co.jp/authors/VA035840/vba/vbafre
q.htm
16
VBAプログラムは、一部
のみコピーしています
17
【緩募】コピペだけ
で、日本語の頻度
表を作れるウェブ・
インターフェイス
Excelのピボットテーブルは意外と使える!!
• 複数の頻度表をまとめて、行列を作りたい!
このようにヘッダーを
つけるのがコツ!
18
個々のテキストの
語彙表を縦に並べ
てコピペする
これをポチッ!
3つの項目を下のボックス
にドラッグする
単語→行ラベル
テキスト名→列ラベル
頻度→値
19
Excelのバージョンが
古いのは気にしないww
20
行列ができた ♪d(^0^)b♪
あとは、空のセルに何らかの手段
(手作業 or 置換)で0を入力
コピペで統計解析 (1)
• MEPHAS
– http://www.gen-info.osaka-u.ac.jp/testdocs/tomocom/
21
コピペで統計解析 (2)
• 多機能 WEB 計算機
– http://aoki2.si.gunma-u.ac.jp/calculator/
22
主成分分析だん
V(^0^)V
23
V(^0^)V
あとは、Excelなど、
好きなソフトで散布図に
描くことも自由自在!
ご清聴ありがとうございました。
これ以外に便利なツールがありましたら、
是非とも教えてくださいませ是非とも教えてくださいませ
m(_ _)m
@langstat
kobayashi0721@gmail.com
24
top related