사냥꾼의 IT 노트

TensorFlow를 이용한 YOLO v1 논문 구현 #2 - 모델 설명 본문

YOLO

TensorFlow를 이용한 YOLO v1 논문 구현 #2 - 모델 설명

가면 쓴 사냥꾼 2022. 7. 7. 16:34

You Only Look Once

  • 기본 컨셉: 이미지를 S x S grid cell로 나누고, grid cell별로 B개의 bounding box를 예측
  • 최종 output: S x S x (5 * B + C) (5 : x, y, w, h, confidence)

 


(x, y, w, h, confidence)

각 인자들의 범위는 전부 0~1

  • x: grid cell내의 x의 위치
  • y: grid cell내의 y의 위치
  • w: 전체 이미지 대비의 width
  • y: 전체 이미지 대비의 height
  • confidence: 이미지 내에 오브젝트가 있다고 확신하는 정도

Non-Maximum Suppression (NMS)

  1. confidence <= 0.6의 bounding box를 제거
  2. class별로 confidence가 가장 높은 bounding box가 앞으로 오도록 전체 bounding box를 내림차순 정렬
  3. 가장 confidence가 높은 bounding box와 나머지 bounding box를 비교해서 2개의 bounding box의 IOU>=0.5라면, confidence가 작은 bounding box를 제거
  4. 제거되지 않은 bounding box 중에서 confidence가 가장 높은 bounding box와 나머지 bounding box간에서 3번의 과정을 반복
  5. 3~4 과정을 전체 bounding box에 대해서 진행
  6. 2~5 과정을 전체 class에 대해서 진행