AI&機械学習しよう！　ソース＆論文輪読会（UNREAL）に出席してきました。part2

飯塚さんの「強化学習による「Montezuma’s Revenge」への挑戦」の発表について個人的なまとめを記載します。

Montezuma’s Revengeとは

DeepMindが強化学習の評価に利用するAtari2600ゲームの一つ平均得点が人間に対し0%と強化学習における最難関ゲームの一つだった。(2016年6月まで)

A3C + Unifying Count-Based Exploration and Intrinsic Motivation + On-highscore-learningで対応

DeepMindの論文で概要は以下ゲーム状態の頻度に基づいて、特典を与えることで報酬を与えるもの。頻度が高い画面は得点を低くし、頻度が低い画面の得点を高くすることで、多くの画面に行くことのモチベーションを上げるもの

飯塚さんのオリジナルのアイデアで得点を得るまでの直前のステップで学習をさせるもの他のコードも入っていたが、上記コードの効果が最大であった。

上記対応によりDeepMind論文未記載の部屋に到達

会場で話が出ていて気になったのが、機械学習では一つのハイパーパラメータですべて解決しようとすることが多いが、次のステップでは、それだけではだめで、例えばMontezuma’s Revengeの場合、部屋ごとに学習が必要ではないかという話が出ていた。　
個人的に考えていたのが、Montezuma’s Revengeをクリアするにはどうすればよいのかということで、Montezuma’s Revengeにはパズル的な要素が存在するため、特定のルートを通らないとクリアできないようになっていたはず、そのため現在のスコアを追い求めるスタイルだけでは、クリアが難しいのではと感じた。（人でもクリアにはマップを用意して実施する必要があり、同じことをやる必要があるなと考えていた。）
Montezuma’s Revengeは以下により小さな子どもにはクリアが難しいゲームである。子どもの成長によりクリアできる可能性が上がってくるがその成長により得られる能力のどこが効果的に機能しているのか調べれば、ヒントが得られるかもしれないと考えている。
1. すぐに死ぬ等の操作が難しい
2. パズル性が難しい。