CAM 논문을 읽었다면 Grad-CAM을 읽게 되는 건 어떻게 보면 당연할지도....

Introduction

이번 논문에서 제안하는 모델은 Gradient-weighted Class Activation Mapping (Grad-CAM)이다.

CAM 논문을 읽었다면 벌써 어떤 목적으로 이 모델을 제안했는지 알게 될 것이다.

CAM 논문을 읽지 않았다면 아래 링크에서 먼저 보고 오자!

Copy of Learning Deep Features for Discriminative Localization

Computer vision에서 CNN의 성공은 Deep learning의 폭발적인 관심을 불러일으켰지만 여전히 설명력의 부족이라는 한계를 가지고 있다.

저자들은 모델이 설명력을 가져야 하는 이유를 사람과의 상호작용에서 찾고 있다.

  1. when AI is significantly weaker than humans and not yet reliably ‘deployable’

    → 모델이 왜 성능이 낮은지 알기 위해

  2. when AI is on par with humans and reliably ‘deployable’

    → 모델의 신뢰도를 얻기 위해

  3. when AI is significantly stronger than humans

    → 인간이 AI에게 배우기 위해

사실 설명력이 중요한 이유는 너무나 명확하기 때문에 모두가 그 중요성을 인지하고 있다.

하지만, 왜 Deep learning 모델은 설명력을 갖지 못할까?

일반적으로 모델의 복잡성(≈ 성능)과 모델의 설명력은 trade-off 관계에 있기 때문이다.