DEIM 톺아보기

Posted Feb 10, 2025 Updated Feb 18, 2025

By Jaemin Jeong

6 min read

DEIM 톺아보기

🔍 DEIM이란?

DEIM(DETR with Improved Matching for Fast Convergence)은 DETR 기반 객체 탐지 모델의 학습 속도를 획기적으로 높이고, 정확도를 개선한 새로운 학습 프레임워크입니다.

🏆 DEIM의 주요 기여점

Dense O2O Matching 도입 → 기존 O2O 매칭 방식의 희소한 학습 샘플 문제 해결
Matchability-Aware Loss (MAL) 제안 → 학습 과정에서 발생하는 저품질 매칭 문제 해결
학습 속도 50% 단축 → DETR 모델의 가장 큰 단점이었던 느린 수렴 속도 개선
YOLO, RT-DETR보다 높은 성능 달성 → 실시간 객체 탐지에서 새로운 기준 설정

💡 왜 DETR을 개선해야 할까?

DETR은 2020년 처음 등장한 트랜스포머 기반 객체 탐지 모델입니다. 기존 CNN 기반 모델(예: YOLO, Faster R-CNN)보다 더 정확한 탐지 성능을 제공하지만, 학습 속도가 느리다는 문제점이 있었습니다.

DEIM은 이 문제를 해결하기 위해 두 가지 핵심 기술을 도입했습니다.

Dense O2O (One-to-One) Matching → 학습 속도 향상
Matchability-Aware Loss (MAL) → 객체 탐지 정확도 개선

1️⃣ DEIM의 핵심 기술 1: Dense O2O Matching (밀집 매칭)

기존 DETR 모델은 O2O(One-to-One) 매칭 방식을 사용합니다.

하나의 객체(정답, GT)당 오직 하나의 예측 박스만 매칭
불필요한 중복 탐지를 줄여주지만, 양성 샘플이 적어 학습이 느림

반면, YOLO 같은 모델은 O2M(One-to-Many) 매칭을 사용합니다.

하나의 객체(정답)당 여러 개의 예측 박스 매칭
학습이 빠르지만, NMS(Non-Maximum Suppression) 처리가 필요함

🔹 DEIM의 혁신적인 방법: Dense O2O Matching!

DEIM은 Dense O2O 기법을 적용해 O2O 방식의 장점은 유지하면서도, O2M처럼 많은 학습 샘플을 확보할 수 있도록 했습니다.

객체 수 증가: 한 이미지에 더 많은 객체를 추가 (Mosaic, Mixup 등 데이터 증강 기법 사용)
양성 샘플 수 증가: O2O 매칭을 유지하면서도 학습 데이터를 효과적으로 늘림

🔹 Dense O2O Matching의 효과

기존 O2O 매칭보다 최대 2배 빠른 학습 속도
추가적인 연산 비용 증가 없이 O2M 수준의 성능 향상

2️⃣ DEIM의 핵심 기술 2: Matchability-Aware Loss (MAL)

Dense O2O 방식은 많은 학습 샘플을 제공하지만, 저품질 매칭(low-quality matching) 문제가 발생할 수 있습니다.

🔹 기존 손실 함수(Varifocal Loss, VFL)의 문제점

높은 신뢰도를 가진 잘못된 예측을 강하게 패널티 주지 못함
낮은 품질의 예측 결과를 무시하는 경향이 있음

🔹 MAL(Matchability-Aware Loss) 도입!

MAL은 IoU(Intersection over Union)와 예측 신뢰도를 동시에 고려하여 손실을 계산하는 새로운 방식입니다.

저품질 예측에도 적절한 패널티 적용
학습 데이터를 보다 효과적으로 활용하여 모델 성능 개선

MAL 공식은 다음과 같습니다.

\[MAL(p, q, y) = \begin{cases} -q^\gamma \log(p) + (1 - q^\gamma) \log(1 - p) & \text{if } y = 1 \\ - p^\gamma \log(1 - p) & \text{if } y = 0 \end{cases}\]

결과적으로 MAL을 적용하면?

DETR 모델이 더 정밀하게 객체를 탐지할 수 있음
Dense O2O와 결합하면 정확도(정밀도)와 학습 속도 모두 증가

🔥 DEIM vs D-FINE, 차이점은?

모델	AP (정확도)	학습 시간	FPS (실시간 성능)
D-FINE-X	55.8%	72 epochs	12.89ms
DEIM-D-FINE-X	56.5%	50 epochs	12.89ms

📌 핵심 차이점

D-FINE → Bounding Box 회귀(Regression) 성능 개선
DEIM → Dense O2O Matching 도입하여 학습 속도 단축
DEIM의 MAL 적용 → 저품질 매칭 문제 해결

📊 실험 결과 분석: 왜 DEIM이 더 뛰어날까?

Dense O2O Matching을 적용하니?
- 양성 샘플 수가 증가 → 모델이 더 빠르게 객체 특징을 학습
- 학습 속도가 최대 50% 단축
MAL을 적용하니?
- 저품질 매칭 문제 해결 → 잘못된 예측을 보정하여 모델의 신뢰성 향상
결과적으로 DEIM은 학습 속도를 줄이면서도 정확도를 유지하는 효과를 보임

🏆 결론: DEIM, 객체 탐지의 새로운 기준!

💡 DEIM이 기존 객체 탐지 모델보다 뛰어난 이유
✔ 학습 속도 최대 2배 향상 (Dense O2O Matching)
✔ 정확도 증가 (Matchability-Aware Loss)
✔ 실시간 객체 탐지에서 최고의 성능 기록

paper

This post is licensed under CC BY 4.0 by the author.