ppt umemoto g

屋内自律飛行船の追従行動に対する行動戦略の学習

複合情報学専攻複雑系工学講座

調和系工学講座学部４年梅本雅之

Learning of behavioral strategies in pursuit task

for Indoor Balloon Robot

背景複雑系

環境や飛行船の運動特性が大きく影響繰り返し行動において目的達成のための行動決定方針

屋内自律飛行船

行動戦略を自律的獲得し，実行する手法が必要

現在(制御する時刻)の状態のみから行動を決定

複数飛行船において相互作用により，全体としてエンタテイメント性のある飛行の実現が可能

従来の制御方法

戦略的行動をするのは困難

行動戦略

・・・エンタテインメントに利用

構成要素が相互作用し，系全体の振る舞いが決定される

目的

追跡-逃走ゲームをシミュレータ上で構築

複数の屋内自律飛行船による行動戦略の自律的獲得

方法

環境・運動特性が行動戦略の獲得に与える影響を分析

ゲームの定義

プレイヤ追跡者，逃走者

空間半径R,高さHの円柱空間内

環境サーバ相手の位置座標(X,Y,Z)を通知

ゲーム時間 T時間

初期距離 dinit離れている

終了条件捕獲orT時間経過

追跡者逃走者

目的短時間で捕獲長時間逃走

利得関数

勝利条件捕獲に成功 T時間逃走

追跡者逃走者

環境

プレイヤ

T

ct

d

d

T

T

t init

t 1

1T

ct

d

d

T

T

t init

t 1

目的：利得関数を最大にする戦略の獲得捕獲時間

距離

:

:

ct

d t

環境

プレイヤ

屋内自律飛行船94.0[cm]

80.0

[cm]

Camera Sensor

Controller

RGB 16bit

160×144[pixel]

T-Engine System

CPU: 216MHz

Propellers

Image

information

Control

signal

モータ制御 XY方向：2chずつ・Z方向：1ch床面のランドマークから計算位置計算

飛行船シミュレータ

運動方程式 FBAvvM

概要屋内自律飛行船をモデル化運動方程式により飛行船の動きを計算OpenGLにより視覚化

推力

遠心力とコリオリ力

浮力と重力による力

:

:

:

F

B

空気抵抗

加速度ベクトル

質量行列

:

:

:

A

v

M

戦略を内含した制御が可能環境の変化に柔軟に対応

共進化GAによるNNの学習

相手の戦略の進化に対してより強固な戦略の学習

戦略の進化的獲得

ニューラルネットワーク

パラメータの学習やINPUTの設計が必要

共進化

ＧＡ

明確な解が無い問題の最適解を探索

戦略を反映した制御方式と戦略の学習が必要

wjk …vij … θj … φk …

制御方法ニューラルネットワークによる制御

出力層：５入力層：１４中間層：１２各プロペラの出力

機体間の相対座標(rx,ry,rz)

各機体の移動偏差(dx,dy,dz)

壁との相対座標(wx,wy,wz)

前回の出力

・・・

・・・・・・・・

結合係数( vij , wjk )と閾値( θj , φk )を遺伝子として持つGAを考える共進化ＧＡを用いて最適な解を探索し，ＮＮを学習させる

vij Wｊｋ

NNの学習方法追跡者逃走者

Ｔ世代における逃走者100個体の評価値の算出方法を説明する逃走者１個体ずつエリート３個体と対戦させ，利得の平均を評価値とする

個体集合（１００個体）

エリート３個体

T-1 世代

T世代全ての個体




エリート３個体

T-1 世代

T世代

追跡者の場合も逃走者と同様に評価値を算出対戦中に遺伝子は変化しない

全ての個体

T-1 世代

T世代


評価値に従って，選択し遺伝子操作を加えて次世代の個体を生成同様の操作を1000世代繰り返し，ＮＮのパラメータを進化させる

交叉，変異交叉，変異

実験

設定時間T：３００[sec]

半径:Ｒ[m]，高さ:５[m]の円柱空間内初期距離：Ｒ[m]

ゲームバランスが均衡しているほうが戦略の有効性が高まる

ゲーム環境が行動戦略の決定に与える影響を調べる

空間サイズによりどのような行動戦略ができるかを検討Rを変更して十分に進化したプレイヤ同士によりゲーム

パラメータ設定

XY平面上の初期位置

実験結果

0

20

40

60

80

100

0 5 10 15 20 25 30 35 40 45 50

空間サイズ[m]

捕獲回数

0

50

100

150

200

250

300

捕獲平均時間

捕獲回数捕獲平均時間

異なる空間サイズで同じ運動特性の2機体

空間サイズR =(5,10…50) 最高速度 v = 0.2[m/s]

ゲームバランスが均衡しているR=15～25[m]で効果的な行動戦略を獲得し易いと考えられる．

獲得した行動戦略の例を次に示す．

壁に追い込む戦略

運動性能同じ

空間サイズR １５[m]

黄色の機体：逃走者白色の機体：追跡者

２次元軌跡（赤：追跡者，緑：逃走者）

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10

モータ特性比

捕獲回数(赤)

捕獲平均時間(青)

実験②

モータ特性比が逃走者：追跡者＝1：0.7~0.8

にかけて追跡者と逃走者の力バランスの均衡点があり，その際に次のような戦略を創発した

モータ特性αと捕獲回数と平均時間のグラフ

空間サイズ半径；25[m]

初期距離：25[m]：逃走者の推力

：追跡者の推力

e

p

)0.12.0,1.0(

e

p

フェイント行動加速度逃走者>追跡者

最高速逃走者=追跡者

黄色の機体：逃走者白色の機体：追跡者

２次元軌跡（赤：追跡者，緑：逃走者）

まとめ

戦略を伴うゲーム環境を構築した

相手の行動に適応した行動戦略を自律的に獲得した

進化の過程で単純に追従するだけでなく，フェイント行動などの行動戦略を創発した

実機を用いた実験複数機体でのゲーム

今後の課題

ppt umemoto g

Documents