construction of a mixture of experts by rnn with different...
TRANSCRIPT
ロボットの自律移動のための予測ステップの異なる サブタスクを持つRNNによる混合エキスパートの構築
Construction of a Mixture of Experts by RNN
with Different Prediction Step Subtasks for Autonomous Navigation of Robot
5118E020-7 村澤 聡 指導教員 尾形 哲也 教授
MURASAWA Satoshi Prof. OGATA Tetsuya
概要: 人間の生活環境で自律移動を行うロボットは,変化に富んだ環境からくるセンサデータに適応していく
必要がある.深層学習を用いた自律移動ロボットの先行研究では,予測学習のサブタスクを設定し,その内容に
よって学習器の行動特性が変わることが確認されている.しかし,単一の学習器では場面に応じた行動特性の変
更ができないという課題がある.本研究では,サブタスクが異なる学習器(エキスパート)を組み合わせ,各エ
キスパートの重み付けを動的に変化させることで複数の行動特性を網羅した混合エキスパート(MoE)モデルの
構築を目指す.具体的にはエキスパート及びそれらを統制するGating Network にニューラルネットワークを用
いてロボットの自律移動タスクの学習を行った.実験ではシミュレーション環境上で部屋をデザインし,評価実
験を行った.単一のエキスパートとの比較の結果,MoEが最も高い性能を示し,場面に応じた予測ステップ切
り替えの有用性が示された.
キーワード: ニューラルネットワーク,自律移動,サブタスク,混合エキスパート,予測学習
Keywords: Neural network,Autonomous navigation,Subtask,Mixture of experts,Predictive learning
1.はじめに 近年,人間の生活環境で働くロボットが,増加している.人間の生活環境で働くためには,変化する環境からくるセンサデータから特徴量を抽出し,適応する必要がある.深層学習という機械学習の手法により,人間の設計なしにセンサデータの特徴量を抽出することができるようになった.これをロボットの制御に応用する取り組みが行われてきている. ロボットの自律移動を行っている研究として,Hermann ら[1]の研究がある.この研究ではニューラルネットワークを使い,時刻 tのセンサ情報から時刻 t+1 の行動を決定する目的タスクに加え,時刻 t+1 のセンサ情報を予測するサブタスクを設定することで性能が向上することを確かめた.このサブタスクによって行動の生成の性能が上がった.サブタスクに関する他の研究に村澤ら[2]の研究がある.この研究ではサブタスクの予測ステップ+1 を+nにし,nの値を変えることでネットワークの行動の特性が変化することが確認された.しかし,この研究には単一のネットワークでは環境に応じて,行動特性を変化させることができないという課題がある. そこで本研究では,nの値が異なるネットワーク(エキスパート)を 5 つ用意し,Gating Network(GN)を使ってエキスパートの動的
な重み付け(優先度付け)を行う混合エキスパート(MoE)[3]を構築した.構築したMoEの検証を本研究の目的とする. 2.提案モデル 上述の課題の解決のため,本研究ではExpert として図 1 のモデルのように,Autoencoder(AE) [3]と Recurrent neural network (RNN) [4] を組み合わせたニューラルネットワークの枠組みを提案する.AEは画像の特徴量を抽出するために使用する.RNNは時刻 tの AEで取り出した画像特徴量,モーター情報 (角速度,両車輪の回転速度)を入力として,時刻 t+1 のコマンドと時刻 t+n の画
図 1 Expert モデル
image!"
motor#"
$′"&'command
Recurrent Neural Network
image!′"&( motor
#′"&(
visionencoder
visiondecoder
目的タスク
サブタスク
Robot
2
像特徴量とモーター情報を出力する.このnの値を 1,3,5,7,10に変えて用意した 5つのエキスパートにRNNを用いたGNを導入したものが図 2の混合エキスパートモデルである.GNは時刻 t の AE で取り出した画像特徴量,モーター情報 (角速度,両車輪の回転速度)を入力として,5 つの Expert にかける重みを出力する.重みを掛け合わせることで Expert の優先度を決め,5 つの Expert の出力を統合する.この統合した出力を用いて評価実験を行う.
3.実験 今回提案モデルの実験を行うために,図 3のテレビを設置した部屋をシミュレータ上で用意した.目的地はテレビを中心に縦 2m,横 1mの区画とした.学習データの収集にはマップや目的地を与えることで,正確に目的地までの移動を行うシミュレータのナビゲーション機能を用いた.100点×4角度の合計 400点の移動過程のデータを取得し,学習を行った.
4. 実験結果 上述の学習済みの提案モデルを用いて,評価実験を行った.学習済みモデルを用いて,学習データの収集を行った部屋で自律移動を実行した.自律移動の際,ロボットにはマップも目標座標も与えていない.未学習の 12点の初期位置からテレビまでの自律移動を行い,その際の目的地に到達できたかの成功率,テレビまでどれだけ近づいたのかの接近距離,走行時間,12 施行中で何試行で角や壁に衝突したかの衝
突率を算出した.その結果を図 4 に示す.成功率は予測ステップ 1 では 40.0%,3 では55.0%,5 では 53.3%,7 では 61.7%,10 では 53.3%,MoEでは 75.0%という結果となった.接近距離はステップ 1 では 2.98m,3 では 3.83m,5では 3.85m,7では 4.13m,10では 3.44m,MoE では 4.85m となりともにMoE が最も高い結果となった.走行時間はステップ 1 は 50.1 秒,3 は 45.0 秒,5 は 46.6秒,7は 41.5 秒,10は 44.9 秒,MoEは 34.0秒となった.衝突率はステップ 1は 58.3%,3は 51.7%,5 は 55.0%,7 は 50.0%,10 は46.7%,MoE は 28.3%となりともに最も低い
結果となった.4つの指標でMoEが最も良い結果となり,現在地によって適切な予測ステップの適切な切り替えが行われていることが確認できた. 5. おわりに 本研究では,移動ロボットのための異なる予測ステップのサブタスクを持つRNNによる混合エキスパートの構築に取り組んだ.現在位置によって必要なサブタスクは異なり切り替えることで性能が向上することがわかった.今後の展望として,自律移動以外のタスクにも応用できる可能性がある.他のサブタスクへの応用,実機での評価,言語指示による行動生成,部屋の数を増やした実験などを考えている. 参考文献 [1]Hermann,K M(2017)”Grounded Language Learning in Simulated 3D World” arXiv preprint arXiv:1706.06551,1-22. [2]村澤聡,山田竜郎,村田真悟,尾形哲也:RNNによるロボットの自律移動のための補助タスクとしてのセンサー情報の予測学習,第 37回日本ロボット学会学術講演会,東京,2019 年 9月. [3] Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts.Neural Computation 3(1),79-87. [4] Doersch, C. (2016). Tutorial on variational autoencoders. arXiv preprint arXiv:1606.05908. [5] Elman, J. L. (1990). “Finding structure in time.” Cognitive science, 14(2), 179-211.
図 3 実験環境
')(
図 4 評価実験の結果
0
0.2
0.4
0.6
0.8
1
Step 1 Step3 Step5 Step 7 Step 10 MoE
成功率
step数
成功率
01
2
34
56
Step 1 Step3 Step5 Step 7 Step 10 MoE
接近距離(m)
step数
接近距離
0
0.2
0.4
0.6
0.8
Step 1 Step3 Step5 Step 7 Step 10 MoE
衝突率
step数
衝突率
010203040506070
Step 1 Step3 Step5 Step 7 Step 10 MoE
��
(s)
step数
走行時間
図 2 提案モデル
y = g1c1 + g2c2+ g3c3 + g4c4 +g5c5
Step 3Step 5
Step 7
Step 10
Gating network
9
g1
g2g3
g4*+,&-
*.,&-
Step 1
!"#"
*/,&-
g5
*0,&-
*-,&-Expert