Preferred Networksは、「CEATEC JAPAN 2016」(シーテック ジャパン、会期:2016年10月4〜7日、会場:千葉市幕張メッセ)で新たな深層強化学習手法を用いて実現したドローンの自動操縦システムのデモを公開する。
Preferred Networksは、「CEATEC JAPAN 2016」(会期:2016年10月4〜7日、会場:千葉市幕張メッセ)で新たな深層強化学習手法「スパイラル学習法」を用いて実現したドローンの自動操縦デモを公開する。
新たに構築した深層強化学習手法は、自動操縦に必要な制御に関する深層学習とともに、シミュレーター上の挙動モデルを深層学習する、2つの深層学習を組み合わせ、効率的かつ安全に、制御に関する深層学習を行うというものだ。
これまで、Preferred Networksは、深層強化学習により自動車の自動走行制御システムを実現し、2016年1月に米国で開催された展示会「CES」などで、“ぶつからない”ための制御を機械自身で学習し、短時間でぶつからない制御を実現するシステムのデモを実施してきた。
自動車の自動走行制御のための深層強化学習は、あらかじめシミュレーター上で学習を行い、そこでの学習成果を実際の自動車に適用し、自動走行制御を実現していた。
Preferred Networksは、CEATEC 2016の出展に合わせて、ドローンの自動操縦を深層強化学習で実現する試みに着手。自動車の自動走行に用いた深層強化学習手法を適用した。
だが、ドローンの自動操縦制御では、シミュレーターでドローンの挙動を再現しきれず、「シミュレーターで学習した結果を実際のドローンに適用しても、うまく制御できなかった」(Preferred Networks)とする。
そこで、シミュレーターを構成するドローンの挙動モデルの開発にも、深層学習を取り入れ、シミュレーター自体の再現性を向上させることを発案。「シミュレーター上で自動操縦のための強化学習→実機での挙動モデルに関する深層学習」を、段階的に繰り返す「スパイラル学習法」を構築。実機環境で制御不能となり、大きなトラブルを起こすことなく、効率的、安全に深層学習を行うことができる。
Preferred Networksではスパイラル学習法について「実機での深層学習が困難で、挙動が複雑なものでも深層強化学習が無理なく適用できる手法であり、応用範囲は広い」としている。なお、今回のデモレベルの安定性の自動操縦を実現するまでに必要な学習時間は「スパイラル学習法により、一晩程度で、学習できるだろう」とした。
Copyright © ITmedia, Inc. All Rights Reserved.