Sei sulla pagina 1di 2

第 29 回 日本神経回路学会 全国大会 (JNNS2019, 2019 年 9 月 4–6 日 東京工業大学)

人と機械学習の協調による未知問題の解の探索法
Collaboration of human and machine learning for solving unknown
problem domain
若原 涼 (PY)† , Ashwin Devanga‡ , 山内康一郎 †
† 中部大学工学研究科情報工学専攻
‡Indian Institute of Technology Guwahati
†{tp19026-9970@sti, k yamauchi@isc}.chubu.ac.jp, ‡ashwinmdevanga@iitg.ac.in

Abstract— Recent large scale neural networks show a high performance to complex recognition tasks but to
get such ability, it needs a huge number of learning samples and iterations to optimize it’s internal parameters.
However, under unknown environments, learning samples do not exist. In this paper, we aim to overcome this
problem and help improve the learning capability of the system by sharing data between multiple systems. To
accelerate the optimization speed, the novel system forms a collaboration with human and incremental learning
neural network and for data sharing between systems to develop a super neural network.
Keywords— Machine learning, Collaborative learning, Cloud sourcing, ColBagging, Incremental Learning

1 研究背景と目的 1 は全く未知な領域において解の探索に使用するには必ず
大規模ニューラルネットワークが多用されるようになった。 しも適さない。つまり try-and-error を伴う探索プロセスが陽
その膨大なパラメータのため、入力ベクトルとラベルの対で には含まれず、個々ユーザに一任されるためである。2 は学
構成される学習データは少なくともそのパラメータの個数以 習器そのものが try-and-error によって解の予測を行うため、
上は必要である。しかし、入力に対する解 (label) が不明な 膨大な繰り返し回数を要する。
問題領域では教師あり学習が実行できない。この解決法には、 そこで筆者らは、1. を改良して複数人のユーザーと学習器
大きく分けて二通りある。 が協学習を行うことで未知領域の解を効率よく探索し、学習
器のみならず、ユーザ(人)もスキルアップが可能なシステム
1. Crowd sourcing を使って label を得る。不特定多数の を提案した [1]。1 これはいわば Particle swarm optimization
ユーザによって回答案を持ち寄り、最も信頼性の高い解 (PSO) [2] の粒子を人間に置き換えたものと解釈できる [3]。
を暫定解として使用する。 本稿では、この枠組みが適用可能な問題領域を確認するため
2. 強化学習を使って解の探索を行う。 に、2つの適用例を示す。

2 Collaborative Bagging
ColBagging はユーザとその見まね学習をする学習器で構
成される (図 1)。各々のユーザは、課題に対する解答案を提
出するが、それぞれのユーザの信頼度に応じて、解答の重み
付き多数決・もしくは重み付き平均が計算される。こうして
求められた統合解は個々のユーザの解答よりも正解する確率
が高いと期待される。この統合解は個々のユーザにフィード
バックされ、ユーザの改心を促す。こうすることで PSO と同
様に、各々のユーザのスキルが徐々に高まり、より良い回答を
発見できる可能性が高まる。当然ながら、単一のユーザ(粒
子)だけではなかなか得られない準最適解であっても比較的
短時間で得られるものと期待される。
各々のユーザ (人) の横にある学習器は対応するユーザの分
身として働く。つまりそのユーザが席を外しているときにも、
過去の学習結果を用いて、分身が肩代わりして課題に対する
解答を出す。学習器としては、追記学習をサポートする学習
器ならば良い。また学習器として Supervised Actor Critic モ
デル [4] を使用した手法ではユーザは常にコンソールに張り
付く必要はなく、時たま学習器の動きを修正するように教え
るだけで良い [5]。

3 静的解を持つ問題への適用例
特定の課題に対する最適解を探すタスクに応用するため、
T-rex ゲーム http://www.trex-game.skipser.com/ を改造
して図 1 に示す枠組みで、複数人のプレイヤーにプレーさせ
図 1: Collaborative Bagging system: A supervised ac- てプレイヤーと学習器のパフォーマンスが向上するかどうか
tor critic model is located beside each user. を確認した [5] 。
買い手の入札も同様に要素と重みを用いた簡易的な式で決定
するものとする。
電力取引が行われると、入札者i の重み wij は効果的な取引
を行い最も高く評価された 入札者A の重み WAj と 入札者i 自
身の過去の取引の中で最も高く評価された重み Bwij の両方を
参照しながら変更される。
図 2: Extended T-rex game in action.
wij = wij + raito1 (wA
j
− wij ) + raito2 (Bwij − wij )
raito1 と raito2 は粒子が評価の高い重みに向かう割合と
このゲームでは恐竜を操作してジャンプさせ、様々なサボ なっており、raito1 を 0.5、raito2 を 0.05 とし、全体で評価
テンを乗り越えていくものであるが、サボテンと恐竜がぶつ の高い重みへと向かいやすくなっている。また個々の入札者
かればその時点で Game over となる。恐竜の走るスピード が一定の確率で上記の式に乱数 n を付け加えることで評価の
は徐々に上昇するため、ジャンプするタイミングが重要とな 高い入札に従うだけでなく個々での変化を表現する。このと
る。ただしオリジナルにはない隠されたルールを埋め込んで きの n は [0.05,0.1] の一様乱数である。
ある。各プレイヤーは高得点を挙げるためには、この隠された フィードバックの有用性を調べるためフィードバックを行っ
ルールが発見できるかどうかが鍵となる。Supervised Actor た場合とフィードバックを行わなかった場合の二通りで重み
Critic は、Gaussian Kernel 関数をある一定個数まで追加で の推移を比べた。
きる、kernel perceptron を使用している。ただし計算量を削
減するため、Actor に関しては、kernel の数がある個数以上
になると、最近最も使われていない kernel から新しい入力に
対応する kernel に置き換える操作を行っている。プレイヤー
はノーマル、とコントロールグループに分け、ノーマルグルー
プには統合された学習器のプレーする動画を見せて教示した。
一方コントロールグループは、教示する画像は一切見せなかっ
た。ゲームは2セット行われ、それぞれのゲーム後、各々の
Actor のパフォーマンスが計測された。その結果、図 3 のよう
になり、ノーマルとコントロールとの間に大きな差は現れな
図 4: Worker weight with Feedback(Left) and without
かった。この原因の一つはプレイヤーが自身のアクションを
修正したときに Actor がその変化をきちんと学習できなかっ Feedback (Right)
たケースが多かったことが判明しており、これが原因と考え
られる。 重みをフィードバックすることによって売り手の重みが収
束する結果となった。

5 まとめ
本稿では、人間と学習装置が協学習を行うとで比較的短時
間に未知の問題を解決するシステムを提案した。この手法は
PSO で近似的に捉えることができ、PSO によるシミュレー
ションでは解の探索が加速されるのを観測できた。ただし、人
を使った実験では未だはっきりとした結論が出ていない。今
図 3: Score transition between the two sessions of 10 後、大規模な実験を行ってこの効果を確認する。
normal and 6 control players: left: normal , right:
参考文献
control (Actor’s score) [1] Takaya Ogiso, Koichiro Yamauchi, Norio Ishii, and Yuri
Suzuki. Co-learning system for humans and machines
using a weighted majority-based method. Interna-
4 動的に変動する問題への適用例 tional Journal of Hybrid Intelligent Systems, (13):63–
動的に変動する問題として買い手と売り手双方の入札によ 76, 2016.
り市場が変動する電力取引を題材とした。 [2] Gerhard Venter and Jaros Sobieszczanski-Sobieski.
買い手は安い値段でなるべく多い電力を買い取りたいとい Particle swam optimization. AIAA, 41(8):1583–1589,
う意志を持って入札をする一方、売り手は高い値段でなるべく 2003.
多くの電力を売りたいという意志を持って入札をする。この売 [3] 若原 涼 and 山内康一郎. 人間とコンピュータによる喬
り手と買い手それぞれについて、ColBagging の枠組みで取引 学習システムのモデル化と計算機シミュレーション. In
を学び合うことを前提とする。今回はこれによってそれぞれ 平成 30 年度電気・電子・情報関係学会東海支部連合大会
の売り手と買い手がどのように学習していくのかを Particle , volume K1-5, September 2018.
Swarm Optimization(PSO) によって近似的に実行すること [4] Jennie Si, Andy Barto, Warren Powell, and Donald
にした。評価は売り手と買い手それぞれで行われるものとす Wunsch. Supervised Actor-Critic Reinforcement Learn-
る。それぞれの入札の評価を二次関数で表す。 ing. A Wiley-Interscience Publication, May 2012.
売り手i はバッテリーの残量 Bi 、今日の天候 C 1 、明日の [5] Ashwin Devanga and Koichiro Yamauchi. Collabora-
天候 C 2 にそれぞれの要素をどの程度重視するか決める戦略、 tive learning of human and computer: Supervisedactor-
知識にあたる重み wij とし、売電量 Selli1 を critic based collaboration scheme. In Maria De Mar-
Selli1 = 0.2(0.8Bi wi1 + C 1 wi2 + C 2 wi3 )2 wi4 sico, Gabriella Sanniti di Baja, and Ana Fred, editors,
で決定する。wi4 は売り手が関数の値より多く売るもしくは Proceedings of the 8th International Conference on Pat-
少なく売るといった意思による売電量のブレを表す。売電価 tern Recognition Applications and Methods (ICPRAM
格 Selli2 は√ 2019), pages 794–801. SCITEPRESS ? Science and
Sell1 Technology Publications, Lda., February 2019.
Selli2 =
0.2
i

で決定し、Selli1 と Selli2 を 売り手i の入札データとする。

Potrebbero piacerti anche