본문 바로가기

황민규/논문 스터디

World Models(Experiment)

본 논문은 2018 Nips oral presentation으로 발표된 구글 브레인 논문입니다. 해당 논문은 뇌인지과학 개념을 적용한 강화학습 모델을 제안하였습니다.

본 포스팅은 이전 World Models 논문 리뷰 포스팅에 이어서 논문에서 진행된 실험에 대해 다루겠습니다.

Car Racing Experiment

World Model for Feature Extraction

해당 실험은 탑-다운(top-down)(위에서 내려다보는 형식)으로 자동차를 주행시키는 환경입니다. 본 실험에서 agent는 3가지의 연속된 액션(continuous actions)을 취할 수 있으며, 각각 좌/우로 회전, 가속 그리고 정지입니다.

Car Racing Experiment

본 논문에서는 V model, M model 그리고 C model을 따로 학습하였습니다.

먼저 10,000개의 random rollouts를 수집하여 데이터로 사용합니다. 1개의 rollout은 하나의 환경에서 이루어지는 하나의 에피소드이며 동영상으로 되어있습니다.

이 데이터를 사용하여 먼저 V model을 학습합니다(동영상은 연속된 2D 이미지로 여길 수 있습니다). 그 후에는 동영상을 사용해 M model을 학습합니다. 동영상에는 하나의 액션 a를 선택한 후, 그다음 상태 s에 대한 정보가 들어있습니다. 이러한 데이터를 통해 MDN-RNN을 학습할 수 있으며, 해당 수식은 아래와 같습니다.

  • z​t+1​​ : 다음 상태에 대한 latent vector.
  • at : 현재 상태에서 취한 action.
  • zt : 현재 상태에 대한 latent vector.
  • ht : 현재의 hidden state.

위의 수식의 결과는 가우시안 분포를 따릅니다.

마지막으로 C model은 CMA-ES라는 진화 알고리즘을 통해 최적화됩니다.

Procedure

Experiment Results

Car Racing Experiment는 제한 시간 내에 얼마나 주행하였는지를 점수로 평가하는 실험입니다. 본 논문에서는 V Model Only, Full World Model(V and M) 2가지의 실험을 진행하였습니다. V model Only 실험에서는 100개의 random trials에서 평균 점수는 632 ± 251을 기록하였습니다. Full World Model(V and M) 실험에서는 이전 실험과 상반되게 906 ± 21이라는 좋은 점수를 기록하였습니다.

본 논문에서는 다른 강화학습 모델들과의 비교도 진행하였으며, 결과는 아래의 그림과 같습니다.

다른 강화학습 모델들과의 비교

위 그림을 보면 본 논문에서 제안한 World Models의 점수가 가장 높은 것을 확인할 수 있습니다.

V model Only 실험 영상

Full World Model(V and M) 실험 영상

Learning inside of a Dream

본 논문에서는 World Models는 꿈속에서 스스로 학습이 가능하다고 주장합니다. 꿈속에서 학습이란 앞에 설명한 V model 없이 M model과 C Model만을 통해 학습을 진행한다는 의미입니다.

해당 실험은 또 다른 실험인 VizDoom에서 진행하였으며 꿈속에서 학습한 결과는 아래의 그림과 같습니다.

VizDoom환경에서 꿈으로 학습한 결과

위 그림의 Temperature는 불확실성을 나타내며 임의로 설정합니다. Temperature가 낮을수록 환경이 간단하여 현실과 큰 차이가 있다는 것을 확인할 수 있습니다. 또한 너무 높은 Temperature을 가지면 환경이 어려워져 학습 효율이 떨어진다는 것을 확인할 수 있습니다. 그러므로 본 논문에서는 꿈속에서 학습을 진행할 경우 적절한 Temperature를 설정하는 것이 가장 중요하다고 언급하였습니다.

 

실제 학습 과정 사진

Conclusion

이번 포스트에서는 World Models 논문에서 소개된 모델에서 진행한 실험에 대해 소개했습니다. 더 자세한 내용은 논문 저자의 블로그에서 확인할 수 있습니다.

'황민규 > 논문 스터디' 카테고리의 다른 글

World Models  (0) 2023.01.17