Post

DEIM 톺아보기

DEIM 톺아보기

🔍 DEIM이란?

DEIM(DETR with Improved Matching for Fast Convergence)은 DETR 기반 객체 탐지 모델의 학습 속도를 획기적으로 높이고, 정확도를 개선한 새로운 학습 프레임워크입니다.

🏆 DEIM의 주요 기여점

  1. Dense O2O Matching 도입 → 기존 O2O 매칭 방식의 희소한 학습 샘플 문제 해결
  2. Matchability-Aware Loss (MAL) 제안 → 학습 과정에서 발생하는 저품질 매칭 문제 해결
  3. 학습 속도 50% 단축 → DETR 모델의 가장 큰 단점이었던 느린 수렴 속도 개선
  4. YOLO, RT-DETR보다 높은 성능 달성 → 실시간 객체 탐지에서 새로운 기준 설정

1

💡 왜 DETR을 개선해야 할까?

DETR은 2020년 처음 등장한 트랜스포머 기반 객체 탐지 모델입니다. 기존 CNN 기반 모델(예: YOLO, Faster R-CNN)보다 더 정확한 탐지 성능을 제공하지만, 학습 속도가 느리다는 문제점이 있었습니다.

DEIM은 이 문제를 해결하기 위해 두 가지 핵심 기술을 도입했습니다.

  1. Dense O2O (One-to-One) Matching → 학습 속도 향상
  2. Matchability-Aware Loss (MAL) → 객체 탐지 정확도 개선

1️⃣ DEIM의 핵심 기술 1: Dense O2O Matching (밀집 매칭)

1

기존 DETR 모델은 O2O(One-to-One) 매칭 방식을 사용합니다.

  • 하나의 객체(정답, GT)당 오직 하나의 예측 박스만 매칭
  • 불필요한 중복 탐지를 줄여주지만, 양성 샘플이 적어 학습이 느림

반면, YOLO 같은 모델은 O2M(One-to-Many) 매칭을 사용합니다.

  • 하나의 객체(정답)당 여러 개의 예측 박스 매칭
  • 학습이 빠르지만, NMS(Non-Maximum Suppression) 처리가 필요함

🔹 DEIM의 혁신적인 방법: Dense O2O Matching!

DEIM은 Dense O2O 기법을 적용해 O2O 방식의 장점은 유지하면서도, O2M처럼 많은 학습 샘플을 확보할 수 있도록 했습니다.

  • 객체 수 증가: 한 이미지에 더 많은 객체를 추가 (Mosaic, Mixup 등 데이터 증강 기법 사용)
  • 양성 샘플 수 증가: O2O 매칭을 유지하면서도 학습 데이터를 효과적으로 늘림

🔹 Dense O2O Matching의 효과

  • 기존 O2O 매칭보다 최대 2배 빠른 학습 속도
  • 추가적인 연산 비용 증가 없이 O2M 수준의 성능 향상

2️⃣ DEIM의 핵심 기술 2: Matchability-Aware Loss (MAL)

Dense O2O 방식은 많은 학습 샘플을 제공하지만, 저품질 매칭(low-quality matching) 문제가 발생할 수 있습니다.

🔹 기존 손실 함수(Varifocal Loss, VFL)의 문제점

  • 높은 신뢰도를 가진 잘못된 예측을 강하게 패널티 주지 못함
  • 낮은 품질의 예측 결과를 무시하는 경향이 있음

🔹 MAL(Matchability-Aware Loss) 도입!

MAL은 IoU(Intersection over Union)와 예측 신뢰도를 동시에 고려하여 손실을 계산하는 새로운 방식입니다.

  • 저품질 예측에도 적절한 패널티 적용
  • 학습 데이터를 보다 효과적으로 활용하여 모델 성능 개선

MAL 공식은 다음과 같습니다.

\[MAL(p, q, y) = \begin{cases} -q^\gamma \log(p) + (1 - q^\gamma) \log(1 - p) & \text{if } y = 1 \\ - p^\gamma \log(1 - p) & \text{if } y = 0 \end{cases}\]

결과적으로 MAL을 적용하면?

  • DETR 모델이 더 정밀하게 객체를 탐지할 수 있음
  • Dense O2O와 결합하면 정확도(정밀도)와 학습 속도 모두 증가

1

🔥 DEIM vs D-FINE, 차이점은?

모델AP (정확도)학습 시간FPS (실시간 성능)
D-FINE-X55.8%72 epochs12.89ms
DEIM-D-FINE-X56.5%50 epochs12.89ms

📌 핵심 차이점

  1. D-FINE → Bounding Box 회귀(Regression) 성능 개선
  2. DEIM → Dense O2O Matching 도입하여 학습 속도 단축
  3. DEIM의 MAL 적용 → 저품질 매칭 문제 해결

📊 실험 결과 분석: 왜 DEIM이 더 뛰어날까?

  • Dense O2O Matching을 적용하니?
    • 양성 샘플 수가 증가 → 모델이 더 빠르게 객체 특징을 학습
    • 학습 속도가 최대 50% 단축
  • MAL을 적용하니?
    • 저품질 매칭 문제 해결 → 잘못된 예측을 보정하여 모델의 신뢰성 향상
  • 결과적으로 DEIM은 학습 속도를 줄이면서도 정확도를 유지하는 효과를 보임

🏆 결론: DEIM, 객체 탐지의 새로운 기준!

💡 DEIM이 기존 객체 탐지 모델보다 뛰어난 이유
✔ 학습 속도 최대 2배 향상 (Dense O2O Matching)
✔ 정확도 증가 (Matchability-Aware Loss)
✔ 실시간 객체 탐지에서 최고의 성능 기록

This post is licensed under CC BY 4.0 by the author.