コーパス分析ツールの選択肢の一つとしての casualconc - 2015...
TRANSCRIPT
コーパス分析ツールの選択肢の一つとしての CasualConc
今尾 康裕大阪大学
本日の目的
新しい CasualConc のご紹介
選択肢の一つとしてCasualConc も考えてください
本日のお題目
• CasualConc とは?
• 現行バージョン開発に至るまで• 新バージョンの機能• 研究への応用と今後
CasualConc とは?
Mac OS X 用コンコーダンサー
基本機能• KWIC 検索
• 単語・n-gram リスト作成
• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索
基本機能• KWIC 検索
• 単語・n-gram リスト作成
• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索
めざすところはMac らしいアプリケーション
開発の経緯
Conc
今世紀初頭でまともなコンコーダンサーと言えば
Windows 用のものしかなかった
TXTANA
WordSmith Tools
MonoConc Pro
Concordance
Mac で使えるコンコーダンサーが現れた!
AntConc
X11 依存のためお世辞にも使えるアプリケーションとは
言えなかった
そのような状況で自らコンコーダンサーを作る試みをはじめた
まあ、Javascript でしょ
痕跡
ただ、ローカルファイルを扱うのが難しかった
Ruby というスクリプト言語の存在を知る
OS X (Leopard) で Ruby にネイティブインターフェイスがつけられるアプリケーションブリッジ標準搭載
2008 年 CasualConc リリース
Mac らしいインターフェイス
WordSmith Tools と TXTANA の機能で自分が使いたいものを移植
SQLite データベースを使った高速検索
用例検索が主目的
その後改良を重ね現在に至る
現行バージョン
なぜ新バージョン?
開発に利用しているブリッジアプリケーションRubyCocoa の開発が止まっている
最新の OS X では開発環境が整わない
ブリッジアプリケーションならではの問題が顕在化してきている
初期の頃からの古いコードが多い
CasualConc 2.0
RubyCocoa 後継の RubyMotion でほぼ一から書き直し
基本機能は継承• KWIC 検索
• 単語・n-gram リスト作成
• コロケーション表• ファイルをグループとして管理• ファイルごとの頻度表(指定文字列)• SQLite を使った高速検索
Concord (KWIC)
Word Count
Word Count (sorting)
Word Count (filtering with -ly)
Collocation
(Word) Cluster
Basic File Information
Word Frequency (by file/corpus)
TF-IDF
Key Group Frequency
Collocation Frequency
ただ問題も
文字列処理が遅くなった
並列処理を導入
スクリプトの書き直しでの高速化
新機能
OS 標準 tagger と TreeTagger との連携
統計環境 R との連携
Mann-Whitney-U と Random Forest を利用した特徴語抽出
Mann-Whitney-U
Random Forest
統計環境 R との連携
Mann-Whitney-U と Random Forest を利用した特徴語抽出
頻度表の視覚化・分析
Word Cloud
Line Chart
Bar Chart
Pie Chart
Scatter Plot
Multi-dimensionalScaling (MDS)
Cluster Analysis
CorrespondenceAnalysis
Principal ComponentAnalysis
Network Analysis
Concordance Plot
グラフは PDF
統計値など
R のスクリプトを確認、変更、再実行
R のスクリプトとデータを保存可能
おまけ的機能
複数のファイル・ファイルグループからすべてにある単語、それぞれにしかない単語を
抜き出す
Vocab Profiler
正規表現練習
単語リスト結合
研究への応用
目指している方向性
研究初期段階での探索的な作業の簡略化
本格的な分析への下準備
データの可視化
コーパス(ファイルグループ)選択
頻度表作成(stop words/lemma 処理)
Random Forest
Random Forest の結果で抽出
もう一つ
コーパス
ICNALE 学習者(L2 使用者)
ICNALE 英語母語使用者
Reporting Verbs と-ly で終わる Adverbs の
コロケーションテーブルを作成
コロケーションテーブル
分析
CasualConc のネットワーク分析ツールで作図
NNS と NS を分けて作成
ネットワーク分析
Reporting Verbs - Adverbs
ENSNNS
今後の方向性
インターフェイスの日本語化
日本語マニュアルの整備
さらなる機能の追加
具体的な応用例の提示