open ai universe starter-agent触ってみた
TRANSCRIPT
OpenAIuniverse-starter-agent
触ってみた
今回の目標
- universe-starter-agentでAtari pongの学習をさせて遊んでみる
学習の最終目標
- 強化学習を利用してアプリゲームなどのレベル上げを自動化したい
OpenAI / universe とは?
- AIの知能を測定・学習するためのソフトウェアプラットフォーム
- Universe上でAIエージェントは人間と同じようにコンピュータを利用することで学習
を行わせることができる
OpenAI / universe-starter-agent とは?
- 以前のPyData.Okinawa meetupでも利用した、universeの環境に加えて、
TensorFlowで実装されたA3Cアルゴリズムが最初から実装されている
- さまざまなuniverse上の環境を解決できるエージェントらしいが、実際はAtari pongの環境に最適化されているっぽい
環境構築 → プロセスの起動
- リポジトリのREADMEを参照しながらやったらすぐできた
- 環境構築がうまくいけばanacondaの仮想環境内でtmuxのセッションが立ち上がる
ps:別々のワーカ間でパラメータを同期させるパラメータサーバ
w-0:方策勾配法で強化学習を行うプロセス(なるほどわからん)
w-1:環境から受け取ったランダムなノイズを利用するプロセス(なるほどわからん)
tb:TenorBoardを動かすプロセス
htop:マシンにかかる負荷を監視できる
学習のようす
- 53000ステップ目付近
- 160000ステップ目付近
学習のようす:TensorBoardの global/reward_per_time
所感
- 強化学習の理論の勉強ちょうむずかしそう
- 2014年に購入した4CoreのMacを使ってるんですが、はやくもつらくなってきた。。
- 今度はマシンスペックに余裕のある環境(EC2)で構築してみる
大変だったこと
- 最近飼い始めたねこ(むぎ君)が邪魔してなかなか作業がはかどらなかった
- ねこと強化学習の勉強は相性が悪い可能性あり(突然のCtrl-C!)
ねこのハトムギ君
これからやることリスト
- スペックの高いマシンでの
- A3Cアルゴリズムの勉強
- universe-starter-agentのREADMEによると、さまざまな環境で使えるようなので
ほかのゲームでも学習を試してみる
- ねこと一緒に住んでても快適にコーディングできる術を考える
参考文献
- universe-starter-agent- https://github.com/openai/universe-starter-agent
- OpenAI UniverseでするAtari Pongの強化学習 - http://qiita.com/TSY/items/9ef0db18d40233f023e8
- A3Cという強化学習アルゴリズムで遊んでみた話 - https://www.slideshare.net/mooopan/a3c-62170605
さいごに
- おもしろそうだなと思ってくれたそこのかた!
- 一緒に勉強しましょう!(土下座)
GitHubのPyData.OkinawaリポジトリにあるJupyter notebookがDeadKernelになる人へ
つらみ(´・ω・`)
解決方法
- 気になる方は”IT系バンドマンの日常”でけんさくけんさくぅ
いつもよりはフランクな雰囲気だと思いますのでなんでも聞いてください