AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。part1

AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。

三好さんのUNREALの発表について個人的なまとめを記載します。

UNREAL

強化学習のA3CアルゴリズムをベースにExperience Replayを効果的に使った補助タスクを組み合わせて3D迷路でx10倍の高速化を実現

UNREALへの流れ

DQN(2013年)→A3C(2016年)→UNREAL(2016年)

A3C:複数の環境を非同期に並列で動かし高速化

UNREAL:A3CにExperience Replayを効果的に使った以下の補助タスクを導入し、さらに学習を高速化させる。

*最近はA3Cをベースとした論文が多数出ている

  1. Pixel Control
  2. Reward Prediction
  3. Value Function Replay

Pixel Control

画面のピクセル値の変化を擬似報酬とする補助タスク 画面を20✕20のピクセルグリットに分け、グリット毎にQ学習を行う。

https://www.youtube.com/watch?v=xHK0qBeH3-I

上記のPCがピクセルグリットに分けたもの、 上記のPC Qがグリット毎にQ学習を実行した結果

このPixel Controlが3つの中で一番効果が高い。

個人的な感想

Pixel Controlが効果的な結果を上げているので
例えばAtari breakout(ブロック崩し)ではA3Cと比べて効果を上げるのが難しいのではないかと感じた。
Pixel Controlは情報の圧縮をしているようなもので、
breakoutは単純で、既に圧縮されているようなものなので、効果はそこまででもないのかと
逆に圧縮が効くような場合は速度に大きな効果を上げるものであると感じた。

以下は少し上記の話とは外れるが、
ゲームの上手い人は情報の圧縮の仕方がうまく、良いゲームはそれを発見させる用にできている。
例えばゲームによっては、面の背景が同じ色の場合は同じ方法論でいける箇所、面の背景が異なった色になっている場合は違う考え方をしなければいけないというサインが存在している場合がある。

面の背景色が違うというのはゲームからのヒント、ゲームの上手い人はこれをとらえ、同じ背景色の場合、前と同じ戦略が使えないか考え、違う背景色がでた場合、前と違う戦略を使わなければ行けないのか考える。しかしゲームの下手な人は違いを考えずに動き、失敗する。

これは試したことで得られた情報をいかに有効に活用し、
また活用しないかということを突き詰めれば、
現在人より劣った結果しかでていないゲームで高得点をあげられるのではと考えている。
またゲームの初期状態の教育に、転移学習を使えれば有効なのかとも考えている。