AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。part2

AI&機械学習しよう! ソース&論文輪読会(UNREAL)に出席してきました。

飯塚さんの「強化学習による 「Montezuma’s Revenge」への挑戦」の発表について個人的なまとめを記載します。

Montezuma’s Revengeとは

DeepMindが強化学習の評価に利用するAtari2600ゲームの一つ 平均得点が人間に対し0%と強化学習における最難関ゲームの一つだった。(2016年6月まで)

得点が取れない原因

  1. キャラが直ぐに死んでしまい、先に進めない
  2. 得点頻度が少なく、学習機会が少ない

どのように対応したか

A3C + Unifying Count-Based Exploration and Intrinsic Motivation + On-highscore-learningで対応

Unifying Count-Based Exploration and Intrinsic Motivation

DeepMindの論文で概要は以下 ゲーム状態の頻度に基づいて、特典を与えることで報酬を与えるもの。 頻度が高い画面は得点を低くし、頻度が低い画面の得点を高くすることで、多くの画面に行くことのモチベーションを上げるもの

On-highscore-learning

飯塚さんのオリジナルのアイデアで得点を得るまでの直前のステップで学習をさせるもの 他のコードも入っていたが、上記コードの効果が最大であった。

どのような結果が出たか

上記対応によりDeepMind論文未記載の部屋に到達

今後の課題・展望

  1. 現在は前処理でモノクロ化を行っているが、人間もカラーのほうが、現在場所がわかりやすいので、 カラー画像の学習も必要では
  2. 人間もマップを見ないとどの部屋にいて、どの戦略が必要かわかりにくい、AIもマップが必要では

個人的な感想

  1. 会場で話が出ていて気になったのが、機械学習では一つのハイパーパラメータですべて解決しようとすることが多いが、次のステップでは、それだけではだめで、例えばMontezuma’s Revengeの場合、部屋ごとに学習が必要ではないかという話が出ていた。  
  2. 個人的に考えていたのが、Montezuma’s Revengeをクリアするにはどうすればよいのかということで、Montezuma’s Revengeにはパズル的な要素が存在するため、特定のルートを通らないとクリアできないようになっていたはず、そのため現在のスコアを追い求めるスタイルだけでは、クリアが難しいのではと感じた。 (人でもクリアにはマップを用意して実施する必要があり、同じことをやる必要があるなと考えていた。)

  3. Montezuma’s Revengeは以下により小さな子どもにはクリアが難しいゲームである。子どもの成長によりクリアできる可能性が上がってくるがその成長により得られる能力のどこが効果的に機能しているのか調べれば、ヒントが得られるかもしれないと考えている。

    1. すぐに死ぬ等の操作が難しい
    2. パズル性が難しい。