ゲーム理論第三部 - staffミニマックス行動1 ミニマックス行動...

知的都市基盤工学5月30日(水)５限(16:30～18:10）

ゲーム理論第三部

再掲：囚人のジレンマ囚人のジレンマの利得行列

⎥⎦

⎤⎢⎣

⎡2,21,44,13,3協調（Cooperate）:C

右がプレイヤー1の利得左がプレイヤー2の利得

裏切（Defect）:Dプレイヤー1

C Dプレイヤー2

ナッシュ均衡点

（協調＝黙秘、裏切＝自白）

プレイヤーの合理的な意思決定の結果

(C,C) はナッシュ均衡ではない

再掲：無限繰り返し囚人のジレンマ 12

all-C

all-D

all-C all-D

プレイヤー1

プレイヤー2

しっぺ返し

しっぺ返し 3,3

δδ +− 1,24

δδ 24,1 −+

3,33,3

3,3

2,21,4

4,1

δ−1ただし、表中の値は全て倍してある

である場合の最適反応戦略δ243 −≥ )2/1( ≥δ

２つのナッシュ均衡

プレイヤー1のプレイヤー2に対する最適反応戦略

プレイヤー2のプレイヤー1に対する最適反応戦略

)2/1( =δ の場合の最適反応戦略

フォークの定理

• 3つの戦略 all-C, all-D, しっぺ返しの中から1つを選択可能な場合

無限繰り返し囚人のジレンマ

δ243 −≥ )2/1( ≥δ

δ243 −< )2/1( <δナッシュ均衡 (all-D, all-D), ( しっぺ返し,しっぺ返し)

(all-D, all-D){

1回限りのゲームのナッシュ均衡戦略に含まれない行動の組(C,C) の系列が無限繰り返しゲームのナッシュ均衡に含まれるか？


• 無限の戦略集合を仮定した場合（一般的な場合に拡大）

1回限りのゲームのナッシュ均衡戦略に含まれない行動の組(C,C) の系列が無限繰り返しゲームのナッシュ均衡に含まれる

ミニマックス行動 1ミニマックス行動

戦略形ゲームG においてプレイヤー i に対するミニマックス行動とは、

),(maxmin),(max jiiaajiiaaafmaf

iji

≡を満たすプレイヤー j の行動のことで、右辺の値をプレイヤー i のミニマックス利得という

jm

定義 1

プレイヤー2のミニマックス行動

プレイヤー1が最適反応原理に基づいて選択した行動に対してプレイヤー1の利得を最小化するプレイヤー2の行動

プレイヤー1が最適反応原理に

よって行動を選択した場合に最低限獲得可能な利得

プレイヤー1のミニマックス利得

プレイヤー2がミニマックス行動を選択した場合のプレイヤー1の利得

（保障水準）

ミニマックス行動 2囚人のジレンマ

プレイヤー1のミニマックス利得とプレイヤー2のミニマックス行動

2=

⎥⎦

⎤⎢⎣

⎡2,21,44,13,3C

D

C D

プレイヤー2 のミニマックス行動

プレイヤー1 のミニマックス利得

プレイヤー2

プレイヤー1

プレイヤー2がDを選択してプレイヤー1の利得を最小化

)]2,1max(),4,3[max(min2a

=

),(maxmin 21112

aafaa

]2,4[min2a

=プレイヤー2がミニマックス行動D を選択すれば、プレイヤー1はミニマックス利得

2以上の利得を獲得できない

同様にミニマックス利得の組

（2, 2）

：D ：2

プレイヤー1 のミニマックス行動

プレイヤー2 のミニマックス利得

：D ：2

プレイヤー2のC, Dに対するプレイヤー1の最適反応

個人合理的 1

プレイヤーの行動の組

が成立するとき、行動の組

),( 21 aa=aプレイヤー1とプレイヤー2 のミニマックス利得に対して

が成立するときをいう

11 )( vf ≥a

iv

定義 2

),( 21 aa

個人合理的

=a

が個人合理的であるとは、

は強く個人合理的であるという

22 )( vf ≥a

11 )( vf >a 22 )( vf >a

∧

∧

個人合理的 2囚人のジレンマにおける個人合理的な行動の組

強く個人合理的な場合、

上の利得ベクトルは含まない

個人合理的な行動の組

(2,2)(3,3)

(2,2)

(1,4)

(4,1)

(3,3)

プレイヤー1の利得

個人合理的利得ベクトル集合

⎥⎦

⎤⎢⎣

⎡2,21,44,13,3C

D

C Dプレイヤー2

プレイヤー1

ミニマックス利得の組 (2,2)

個人合理的な行動の組の

条件を満たす利得の組

(D,D)(C,C)

強く個人合理的な行動の組

(2,2)(3,3)強く個人合理的な行動の組の

条件を満たす利得の組

(C,C)


フォークの定理 1

成分ゲームGの強く個人合理的な任意の行動の組

ijiib

ijiib

vabf

fabf

i

i

−

−≥

),(max

)(),(max aδ

∞G ),( *2

*1

* ss=s

に対して将来利得の割引因子δが

が成り立つ

存在して、,...),()( 21* aasa =

を満たせば、繰り返しゲームのナッシュ均衡点

2,1, =i

定理 1

),( 21 aaフォークの定理

=a

が

無限繰り返しゲームのナッシュ均衡の中の一つに強く個人合理的な行動の組を毎回実現する均衡点が存在

フォークの定理 2定理2 の証明 1

相手のプレイヤーだけが強く個人合理的な任意の行動の

上記の場合以外は強く個人合理的な任意の行動をとる

*2

*1 , ss

21 , mm

21 , aa

トリガー戦略

ミニマックス行動に従う

規則 1

規則 2

),( 21 aa=a

の定義

組から離脱すれば、以後相手に対する

• 一度相手がDを出せば、それ以降のゲームではそれ以降の相手の行動に関係なく、Dを出し続ける

繰り返し囚人のジレンマでのトリガー戦略

• 相手がDを出すまで、自分は常にCを出し続ける（初回はCを出す）


が実現する

,...),()( 21* aasa =

プレイヤー1、プレイヤー2がトリガー戦略を選択Case 1初回からお互いに強く個人合理的な行動を取り続け、

どちらもそこから離脱することがないので

お互いにトリガー戦略から変更しなかった場合のプレイヤー1 のt 回目以降の割引利得和は、

)(1

11 af

δ−...)()( 11 aa ff δ =++

である.


プレイヤー1が戦略をトリガー戦略から異なる戦略に変更

プレイヤー1は t 回目のゲームでと異なる行動をとる.

*1s

1aこのとき、トリガー戦略の定義から、プレイヤー2 は t +1 回目以降のゲームで

1b

プレイヤー1 に対するミニマックス行動をとり続ける.

Case 2

戦略を変更したプレイヤー1の t 回目以降の割引利得和は、

121112

1211 1),(...),( vabfvvabf

δδδδ−

+=+++

t 回目の利得t+1 回目以降の

割引利得和である.


行動に対して、12111 1

),()(1

1 vabffδ

δδ −

+≥−

a1b

*1sならば、トリガー戦略から他の戦略へ変更しても割引利得和を増やせない

)(1

1: 1 afδ−

Case 1(変更しない)

Case 2(変更した) 1211 1

),(: vabfδ

δ−

+

プレイヤー1の t 回目以降の割引利得和

トリガー戦略からの変更に関して…

プレイヤー1のトリガー戦略はプレイヤー2のトリガー戦略に対する最適反応戦略

トリガー戦略がナッシュ均衡戦略

プレイヤー1とプレイヤー2の両方に対して成立


ijiii vabffδ

δδ −

+≥− 1

),()(1

1 a

ijiib

ijiib

vabf

fabf

i

i

−

−≥

),(max

)(),(max aδ

)(),(max)),(max( aijiibijiibfabfvabf

ii

−≥−δijiibjiibi vabfabff

ii

δδ +−≥ ),(max),(max)(aijiibi vabff

i

δδ +−≥ ),(max)1()( a

ijiibi vabffi δ

δδ −

+≥− 1

),(max)(1

1 a

右辺を最大化するについても成り立つ

)1,2(),2,1(),( =ji

式変形

式変形

ib

フォークの定理 6

ナッシュ均衡点の実現する行動の組の系列に

,....),...,()( 1* taasa =),...),(),...,,(( CCCC=

が含まれる


強く個人合理的な行動の組 (C,C)

ijiib

ijiib

vabf

fabf

i

i

−

−≥

),(max

)(),(max aδ 2,1, =i

⎟⎠⎞

⎜⎝⎛ =

−−

≥21

2434δ

囚人のジレンマ

割引因子δの条件

＋

が成り立つ場合

(2,2)

(1,4)

(4,1)

(3,3)


個人合理的利得ベクトル集合

⎥⎦

⎤⎢⎣

⎡2,21,44,13,3C

D

C Dプレイヤー2

プレイヤー1


再掲：無限繰り返し囚人のジレンマ 13δ243 −< )2/1( <δ の場合

しっぺ返しに対するしっぺ返しの割引利得和

しっぺ返しに対するall-Dの割引利得和

しっぺ返しを選択する誘因がない

＞

(2,2)

(1,4)

(4,1)

(3,3)



)1,24( δδ +−

)24,1( δδ −+

δ24−

3

お互いしっぺ返しの場合の割引利得和

プレイヤー1： all-Dプレイヤー2：しっぺ返し

の場合の割引利得和のとる範囲

プレイヤー1：しっぺ返しプレイヤー2： all-Dの場合の割引利得和

のとる範囲

ナッシュ均衡

再掲：無限繰り返し囚人のジレンマ 14δ243 −≥ )2/1( ≥δ の場合

しっぺ返しに対するしっぺ返しの割引利得和

しっぺ返しに対するall-Dの割引利得和 δ24−

3

(2,2)

(1,4)

(4,1)

(3,3)


)24,1( δδ −+

お互いしっぺ返しの場合の割引利得和


)1,24( δδ +−

ナッシュ均衡

ナッシュ均衡

プレイヤー1： all-Dプレイヤー2：しっぺ返し

の場合の割引利得和のとる範囲

プレイヤー1：しっぺ返しプレイヤー2： all-Dの場合の割引利得和

のとる範囲

しっぺ返しを選択する誘因が発生

＞

フォークの定理 7トリガー戦略以外でも強く個人合理的な行動の組（C,C ）の系列は

強く個人合理的な行動の組（C,C）からの離脱に対してミニマックス行動Dを選択する戦略との対戦

ナッシュ均衡戦略により実現可能か？

割引因子δが十分に大きいと成立

ex.) しっぺ返し戦略

離脱により得られる利得強い個人合理的な戦略の組から離脱してミニマックス行動を選択

された場合の割引利得和＋

強い個人合理的な戦略の組から離脱しない場合の割引利得和

＞

強く個人合理的な戦略の組に留まる誘因発生の条件

強く個人合理的な行動の組（C,C）の系列が実現可能

有限繰り返しゲームのナッシュ均衡 1

割引因子δは導入しない

繰り返し回数が有限 = 未来に対する不確実がない

有限繰り返しゲーム

成分ゲームGが唯一のナッシュ均衡点

は、

),( 21 eee =

TG ),( *2

*1

* sss =もつとき、任意の繰り返し回数Tに対して、

),...,,()( * eeesa =である

T回繰り返しゲームのナッシュ均衡点

定理 2

を

有限繰り返しゲームのナッシュ均衡 2定理2 の証明 1

後ろ向き帰納法で証明

1回限りのゲームと同様であるので

繰り返しゲームのナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する

1=T の場合①

の場合、定理2は成立する1=T

有限繰り返しゲームのナッシュ均衡 3定理2 の証明 2

T回目のゲームでは既に行動が決定していて、T-1回目のゲームはT回目のゲームに影響を与えない

2≥T の場合

• T回目のゲーム（最後の一回のゲーム）

②

以降のゲームに影響を与えないので、 T-1回目までのゲームの履歴にかかわらず1回限りのゲームと同様に扱うことができる

• T-1回目のゲーム

合理的な行動の結果は成分ゲームGのナッシュ均衡


T-1回目までのゲームの履歴にかかわらずT-1回目のゲームも1回限りのゲームと同様に扱うことができる

1回目のゲームも 1回限りのゲームと同様に扱うことができる

2≥T の場合、毎回のゲームにおけるナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する

• 1回目のゲーム


2≥T の場合②

定理2 の証明 3


2回目のゲームでも既に行動が成分ゲームのナッシュ均衡戦略と決定していて、 1回目のゲームは2回目のゲームに影響を与えない

したがって、


① ,② において定理2が成立しているので1=T 2≥T

が成立する

成分ゲームGが唯一のナッシュ均衡点

は、

),( 21 eee =

TG ),( *2

*1

* sss =もつとき、任意の繰り返し回数Tに対して、

),...,,()( * eeesa =である

T回繰り返しゲームのナッシュ均衡点

定理 2

を


毎回成分ゲームの均衡点(D,D)が繰り返される

有限繰り返し囚人のジレンマ

定理2 の仮定…「成分ゲームのナッシュ均衡点が唯一」

),( DD定理2 の仮定を満たす

有限繰り返し囚人のジレンマのナッシュ均衡

)),(),...,,((),...,()( 1* DDDDt == aasa

一回限りの囚人のジレンマのナッシュ均衡点はで唯一

繰り返し囚人のジレンマコンテスト 1前述の繰り返し囚人のジレンマの分析

• ゲーム全体を俯瞰する立場からの考察

• プレイヤー個人の立場からの考察

ex.) 複数のナッシュ均衡点、フォークの定理

繰り返し囚人のジレンマコンテスト [Axelrod 1984]複数の戦略プログラムの総当たり対戦

有限繰り返し囚人のジレンマ

ナッシュ均衡戦略：all-D…高い利得を獲得できるか？

お互いにDを選択すれば、お互いCよりも低い利得

実際に繰り返し囚人のジレンマをおこなう場合、どのような戦略を選択すればよいのだろうか？

繰り返し囚人のジレンマコンテスト 2

ルール総当り対戦…各対戦は200回繰り返しを5回おこなう

評価…対戦で得られた利得の合計

⎥⎦

⎤⎢⎣

⎡2,21,44,13,3C

D

C Dコンテストで用いられた

利得行列

結果優勝…しっぺ返しの戦略

上位を占めた戦略の特徴

キングメーカーの存在

自分から裏切らない = 上品さ（nice）相手が裏切っても再び協調し合える = 心の広さ（forgiveness）

プレイヤー心理学、経済学、政治学、数学、社会学の分野に属する14名に作成されたプログラム＋ランダムプログラム

第1回コンテストの概要


ルール

前回の分野＋コンピュータサイエンス、物理学等の分野に属する62名に作成されたプログラム＋ランダムプログラム

プレイヤー

前回のルール＋繰り返し回数の確率的変動

結果

優勝… しっぺ返しの戦略

上位を占めた戦略の特徴

第1回コンテストの結果を踏まえた参加プログラムの２つの傾向

1．上品で心が広いプログラム（しっぺ返しの戦略の踏襲）

2. 1のようなプログラムから搾取を狙うプログラム

→ 1 同士では協調、2 同士で裏切り合い

上品で心が広い… 傾向1 → 前回と同様

非協調的な相手（ex. all-D）には裏切り

第2回コンテストの概要


ルール

各戦略毎に種プレイヤー

前回のルール＋繰り返し回数の確率的変動

結果優性種の交代

最近の研究

高い利得を獲得した種が増加するfitness 関数

ゲーム理論第三部 - staffミニマックス行動1 ミニマックス行動...

Documents