ppt godo g
TRANSCRIPT
事前申告を取り入れたマイノリティゲーム
北海道大学 工学部 情報工学科4年
複雑系工学講座調和系工学研究室
神戸 芳文
複雑系 個々の自律的振る舞いで系全体の振る舞いが決定
株式市場 利己的な戦略を持つ個人が多数集まり,系全体が構成される
背景
少数派に属した個人が利得を得るゲームであり,株式市場などを単純にモデル化したもの
マイノリティゲーム
買い
売り
報酬
少数派
多数派一斉に行動
事前情報を含んだマイノリティゲームの提案
事前情報が行動に与える影響の分析
複雑系の側面をもつ株式市場をモデル化したマイノリティゲームを用いて,
事前情報が戦略の異なる複数の利己的エージェントの行動に与える影響を解析する
目的
現実にはうわさ,予想などの事前情報も考えて行動する
マイノリティゲームに関する先行研究
•StandardMGの研究(C-.Zhang 1997)
•人工市場のシンプルなモデルとしてのマイノリティゲーム•進化的アルゴリズムは人工市場にふさわしいか[和泉 2004]
•エージェントの学習に「進化的アルゴリズム」を用いた研究
従来のMGではエージェントの行動はゲームの履歴だけで決定
行動決定テーブルを用いたマルチエージェントモデル
A A P1
A B P2
B A P3
B B P4
t-1t-2
記憶長 m=2 の場合
t
行動決定テーブル
A ・・・ B B A ?
t-1t-2 tt-31
過去のゲームの履歴
各エージェントの行動でゲームをする
確率α
確率1-α
P3 ← P3
変更なし
報酬 行動決定テーブルの更新
少数派 R 変更なし
多数派 無し
少数派だった行動
報酬の獲得,行動決定テーブルの更新
再びゲームをする
[和泉, et al., 04]
行動決定テーブルを用いたモデルの特性
A A P1
A B P2
B A P3
B B P4
全エージェントが同じ履歴に基づく
必ずテーブルの同じ行を使う
少数派 多数派
エージェント数
多数派のエージェントのうち確率αでP3の行動を反転
少数派:多数派 = 1:2α=0.5の場合
に収束する
このモデルを拡張することで,事前情報を考慮したマイノリティゲームを構築する
事前情報を用いたモデルの拡張
任意で事前申告
行動決定報酬&行動決定テーブルの変更
履歴 事前申告=行動申告エージェント
情報利用エージェント
履歴 +
申告の集計結果行動
履歴 行動
・事前申告はする
・集計結果は使用しない
・事前申告をしない
・集計結果を使用する
事前情報を用いたマイノリティゲームの流れ
集計結果の少数派を全エージェントに通知
A A P1
A B P2
B A P3
B B P4
A
A A P1
A B P2
B A P3
B B P4
B
A A P5
A B P6
B A P7
B B P8
申告の集計結果
申告エージェントと情報利用エージェントの個体数を変化させて実験を行う
実験結果1申告エージェントに対して情報利用エージェントが少ないときは事前申告結果を使って確実に少数派に入れる
互いの平均利得が逆転
申告エージェント:100
情報利用エージェント:1
試行回数:5000
申告エージェントの人数が少ないと,申告エージェントの方が高い利得を得られている
申告エージェント:1情報利用エージェント:100
申告エージェント
情報利用エージェント意外にも・・・
申告エージェント(10人)
7人
3人行動B
行動A
考察1
申告エージェントは過去の履歴だけから行動を決定
申告エージェントが少数のとき有利な理由
考察1申告エージェントが少数のとき有利な理由
申告エージェント(10人)
情報利用エージェントは,1:2の割合で分かれる
7人
3人行動B
行動A31人
60人
申告エージェントの事前申告結果が情報利用エージェントの行動に影響
少数派
情報利用エージェント(91人)
全体の大部分を占める場合どちらが少数派になるかは情報利用エージェントに依存する
考察1
7人
3人行動B
行動A31人
60人
少数派
エージェントAが少数のとき有利な理由
申告エージェントは50%程度の確率で報酬を得られる
申告エージェント(10人)
情報利用エージェント(91人)申告エージェントの
事前申告結果が情報利用エージェントの行動に影響
事前申告・申告集計結果を用いた学習
申告エージェントと情報利用エージェントが共存した場合のマイノリティゲームについて解析できた.
学習を用いた申告・情報利用エージェントを設計し,その振る舞いについて実験を行う.
事前申告・申告集計結果を用いた学習
状態 s 行動 a
テーブルQ1 過去m回の履歴 事前申告
テーブルQ2 過去m回の履歴 ゲームの行動
テーブルQ3申告集計結果&
過去m回の履歴ゲームの行動
3つのQテーブルと確率βを学習させる
任意で事前申告
行動決定報酬&行動決定テーブルの変更
事前情報を用いたマイノリティゲームの流れ
集計結果の少数派を全エージェントに通知
テーブルQ1によって
事前申告を決定する
事前情報を利用しない場合はテーブルQ2
利用する場合はテーブルQ3
によって行動を決定する
確率βで
事前情報を利用
Qテーブルとβの学習方法
Q学習:利用した行動価値関数を更新
)],(),(max[),(),( 111 tttt
a
ttttt asQasQrewardasQasQ α
行動価値関数
申告集計結果の利用率β
if
if
05.0
05.0
申告集計結果を 利用して成功 or 利用しないで失敗
申告集計結果を 利用して失敗 or 利用しないで成功
Q学習の学習率割引率
実験設定
実験設定
α=0.1
γ=0.0
βの初期値=1.0
実験結果2
0.5
0.3
0.7
ステップ t
申告集計結果の利用率β
集計結果を利用したエージェントの勝率
集計結果を利用しないエージェントの勝率
初期段階では申告集計結果を利用しない方が勝率が高く,βが減少
情報利用エージェントと申告エージェントは負の相関だった
集計結果を利用する場合としない場合の
勝率には負の相関(相関係数-0.43)がある
(実験結果1の状況が影響していると思われる)
実験結果1では・・・
結論
• 行動決定テーブルによる既存のマイノリティゲームを、事前申
告を取り入れたマイノリティゲームに拡張・分析
• 事前申告の利用者が,高い利得を獲得できるとは限らない
• 申告エージェントの勝率と,情報利用エージェントの勝利には負
の相関が観察された
FutureWork
事前申告が持つ情報量や信憑性の分析