nlp若手の会シンポジウム行ってきた & chainer使ってみた

Post on 21-Jan-2017

2.588 Views

Category:

Software

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

NLP若手の会シンポジウム行ってきた & Chainer 使ってみた2015/09/23NLP勉強会 #4

自己紹介• かきはらよしゆき

• Twitter: @1664riffs

• GitHub: ykakihara

• 物理学・経営学

• 音声認識、自然言語処理などなどを使った英会話アプリのスタートアップをやっています

• http://www.joyz.co.jp/

NLP若手の会(YANS)シンポジウム行ってきた• 自然言語処理の研究成果を発表する場• 100人規模、学生・社会人が半々ぐらい• 10回目• 今年は2泊3日の合宿形式@石川県

• 9/3-5

和倉温泉• 金沢駅から特急で1時間ほど

• 東京からは北陸新幹線が便利です

内容• 2時間のポスター発表セッション x3

• 招待講演 x 2名• 企業発表 x 8社• 交流企画もろもろ

行ってよかった• 最先端の研究成果• 気合の入ったデモ(対話システム等)もあって見応えあります

• 全国のNLPerと友だちになれます• 交流企画がすばらしかった• 技術の話はやっぱり楽しい

来年は大阪で開催予定だそうです

Chainer

• 深層学習OSS

• Preferred Networks が開発

• All Python

• Numpy, CUDA を活用して高速化

• AWS GPU Instance 使って楽に時間の節約ができる

• $ pip install chainer

ツイッター予測器• Twitterから自分の全ツイートを取得(公式機能)• Recurrent Neural Network (RNN)

• LSTM

• Character-wise(エンコーディングは考慮するが文節・単語の区切りは考慮しない)

Recurrent Neural Network• 可変長の入力系を扱える• 時系列データに向いている

• 言語• 音• センサー

• 今回は言語モデル生成に活用

学習データ• Twitter公式データがCSV→ツイートだけ抜き出してテキストファイルに書き出す

• ~11K Tweets、1.2MB

• URLや@など、特徴的なフレーズを含む

• 日本語と英語(記事のシェア)がちゃんぽん

Chainerでやってみた• Python 3.4

• Core i7, 8GB (MBP 13inch)

• https://github.com/yusuketomoto

• Byte-wise だったところを Character-wise になるように変更• 日本語対応

• あとは基本デフォルト

学習経過1堂びいなじる撮じとすいじにっいみた、プイイウ味ろみ。のあ。こかるでがえ。。表放もした。ん思んすふときってがきい。ス語換ほらきれら仕ン多んのオン達してだな、ー互でけダルネ合るう。18操むしこがのどんいと何本スル書ねなさい。っっていりてな ♪希でに高無愚にを買るて、「覚伊ラこ的なめか。茶よにウセンわしたもい。こっだけがなるも行っえよ。%やこみうさしけっ@Pttkr.c

学習経過2サニーツないと通張維見てやってるさんで帰り予化でが強く@nadugo ましいの反動ごってないRT @veliva: 夢語に漠簿する。@ogymok Lisn I. http://tor....凄めの久にぶりで言った. . - Thee NASE 3)IkR!w""1 thoming. L.ニューデョェーバとな倒った。@sskskyo だわなんだけど、中外って抜きたに出っている。プラブ面半狭かってみた。っよ。昨にごけず来てゃないもうと

学習経過3楽しく苦いだけ地同園に新大果の結限系。前期人は多いから http://t.co/kvwRNARCHW事身共開向ころ曲の半見ぐみたいなんて稼uOS、チャンカイプ化ないとははそれやちゃんちょと怖い。@19621 ブログって分つかって。結局出来るインタムは素曜に進めましょうななぁ!自分のトオーンまだ方黒スタート。。

学習経過4自動車の写真大崎だと…原うといえば俺の毛だとパックパッケー感つんちゃいけなり、工続かまってくる #Himie'll*Windows Baper pecoral laten is going at all-realf@isbhiro おつか…ハードロース。RT @sixocu_i: おもとりあえず、帰ったら勉強会い!久々に久々にMac95で良い演れた。

次にやってみたいこと• 精度向上のための前処理 → 日本語限定 & かな化• キメラ言語の生成(e.g. フランス語+スペイン語)• ニュース記事の内容をもとにコメントを予測してみたい• 他、既存論文の追試• 懇親会でネタ出ししたいです

まとめ• NLP若手の会シンポジウムは濃密・研究と実用をつなぐ素晴らしい会

• Chainerは導入も記述も楽• データが小さい(~数MB)ならノートPCのCPUでも1時間程度で学習して遊べる

• RNNベースの言語モデルは前処理が軽く実験しやすい → ニューラルネットの入門に良いかも

参考文献• The Unreasonable Effectiveness of Recurrent Neural

Networks

• Recurrent Neural Networks

top related