My Dev & Engineering Repository

이번 글에서는 Object Detection Network 구조 개요, FPS, Resolution과 성능 상관 관계, R-CNN 에 데하여 알아 보겠습니다.

Object Detection Network 개요

Object Detetction Network 구조는 두 부분으로 나눌 수 있습니다:
특징 추출 네트워크(Feature Extractor Network)와 객체 탐지 네트워크(Object Detection Network)입니다.
두 네트워크는 일반적으로 사전 학습된 모델을 사용하여 특정 작업에 맞게 미세 조정됩니다.

Feature Extractor Network (특징 추출 네트워크)

입력 이미지에서 유용한 특징을 추출합니다.
VGG, ResNet, Inception 등과 같은 모델을 사용하며, 보통 ImageNet 데이터셋으로 사전 학습(Pretrained)됩니다.
여러 개의 레이어(Layer 1, Layer 2, ..., Layer N)로 구성되어 있습니다.
추출된 특징 맵(feature map)을 생성하여 객체 탐지 네트워크에 전달합니다.

Object Detection Network (객체 탐지 네트워크)

추출된 특징 맵을 사용하여 이미지 내 객체를 탐지하고, 각 객체의 클래스와 위치를 예측합니다.
보통 Pascal VOC나 MS-COCO와 같은 데이터셋을 기반으로 Pre-Train 됩니다.
- Feature Extractor Network의 Feature map으로 기반.
여러 개의 레이어(Layer A, Layer B, Layer C)로 구성되어 있으며, 각 레이어는 특정 역할을 수행합니다.
이미지 내 객체의 바운딩 박스와 클래스 레이블을 포함하는 결과를 생성합니다.
또한 별도의 Network를 사용한다는 특징이 있습니다.

Image Resolution, FPS, Detection 성능 상관 관계

여기서 봐야하는건 FPS와 Image Resoultion의 관계 입니다. 서로 상관관계 입니다.
Image의 Resoultion이 높을수록? 1초에 Object Detection 할 수 있는 이미지의 개수가 감소합니다.

R-CNN(Regions with CNN)

아래는 Object Detection의 개요입니다. 사진 아래 링크 달아놓을테니 참고해주세요!

[CV] Object Detection의 이해

Intro Object DetectionObject Detection은 Deep Learning(딥러닝) 기반으로 발전하였습니다.Object detection은 컴퓨터 비전 분야에서 중요한 연구 주제 중 하나로, 이미지나 비디오 내에서 객체의 위치를 찾고, 해

daehyun-bigbread.tistory.com

이 다이어그램은 객체 탐지 과정의 주요 단계를 시각적으로 설명하며, 각 단계가 어떻게 연결되는지를 보여줍니다.

주요 구성 요소 및 단계

원본 이미지 (Input Image)
- 객체 탐지의 시작점입니다. 입력 이미지는 네트워크에 전달되어 분석됩니다.
- 예시로, 빨간색 차가 포함된 이미지가 사용되고 있습니다.

Feature Extractor (특징 추출기)
- 여기서는 VGG-16 네트워크가 사용됩니다.
- 입력 이미지에서 유용한 특징을 추출합니다. VGG-16은 여러 개의 컨볼루션 레이어와 풀링 레이어로 구성되어 있으며, 이미지의 다양한 패턴과 특징을 추출합니다.
- 추출된 특징 맵(Feature Map)은 다음 단계로 전달됩니다.

Feature Map (특징 맵)
- 특징 추출기에서 추출된 다차원 데이터입니다.
- 여러 개의 채널로 이루어진 텐서로, 각 채널은 입력 이미지의 다른 측면을 나타냅니다.

Fully Connected Layer - FC (완전 연결 레이어)
- 특징 맵을 입력으로 받아 각 픽셀이 어떤 클래스에 속하는지 예측합니다.
- 각 클래스에 대한 확률 분포를 생성합니다. 예를 들어, 이미지의 객체가 자동차일 확률이 0.8, 고양이일 확률이 0.1, 개일 확률이 0.1로 출력됩니다.

Softmax Class Score (클래스 점수)
- 각 클래스에 속할 확률을 나타냅니다.
- 예시: Car: 0.8, Cat: 0.1, Dog: 0.1

Bounding Box Regression (바운딩 박스 회귀)
- 객체의 위치를 예측합니다. 객체를 포함하는 바운딩 박스를 생성합니다.
- Bounding Box 의 좌표(x1, y1, x2, y2)를 예측하며, 이를 통해 객체의 위치와 크기를 결정합니다.
- 각 클래스에 대한 바운딩 박스 좌표. 예를 들어, 자동차 클래스에 대한 바운딩 박스 좌표가 (x1, y1, x2, y2)로 출력됩니다.

복습 - Sliding Window 방식과 Region Propsal 방식

Sliding Window 방식

R-CNN (Regions with CNN)을 설명하다가 갑자기 왜 Sliding Window 방식과 Region Proposal 방식에 데한 설명을 갑자기 왜 들고 온 이유는 무엇일까요?
이유는 R-CNN이 Region Proposal 방식에 기반을 하고 있고, Sliding Window 방식이 들어가 있기 때문입니다.
한번 복습하는 김에 아래의 개념들을 한번 훑어본 다음, R-CNN 에 데하여 설명해 보겠습니다.

Sliding Window 방식은 Window를 왼쪽 상단부터 오른쪽 하단으로 이동시키면서 Object를 Detection 하는 방식입니다.
약간 촘촘히, 세밀하게 window를 이동시키면서 객체 탐지를 하는 방식입니다.

이미지를 작은 영역으로 나누고, 각각의 작은 영역(윈도우)에서 객체가 존재하는지를 탐지하는 방법입니다.
장점은 많은 영역을 Scan 할수 있는것, Window의 형태랑 Image Scale을 다양하게 변경할 수 있다는 점입니다.
단점은 Object 없는 영역도 무조건 슬라이딩 하여야 하며 여러 형태의 Window와 여러 Scale을 가진 이미지를 스캔해서 검출해야 하므로 수행 시간이 오래 걸리고 검출 성능이 상대적으로 낮습니다.
Region Proposal(영역 추정) 기법의 등장으로 활용도는 떨어졌지만 Object Detection 발전을 위한 기술적 토대 제공했다는 점이 있습니다.

Slicing Window 방식 과정

진행 방식은 아래와 같습니다.

윈도우 크기 설정: 탐지하고자 하는 객체의 크기에 따라 윈도우의 크기를 정합니다. 이 윈도우는 이미지 전체에 걸쳐 이동할 것입니다.
윈도우 이동: 윈도우를 이미지의 시작점에서부터, 일반적으로 좌측 상단에서 우측 하단 방향으로, 지정된 스텝 크기만큼 이동시키며 각 위치에서 객체를 탐지합니다.
객체 탐지: 각 윈도우 위치에서, 이미 정의된 객체 탐지 알고리즘(예: Haar feature-based cascade classifiers, SVM 등)을 사용하여 윈도우 내부에 객체가 있는지 판단합니다.
결과 처리: 각 윈도우에서의 탐지 결과를 종합하여, 최종적으로 객체의 위치를 결정합니다. 이때 여러 윈도우에서 중복으로 객체를 탐지했을 수 있으므로, 중복 제거 과정(non-max suppression)을 거쳐 최종 탐지 결과를 정리합니다.

Region Proposal (영역 추정) 방식

"Object가 있을 만한 후보 영역을 찾자" 이러한 개념으로 영역 추정을 하는 방식으로 Object Detection을 합니다.

이 방법은 이미지 내에서 객체가 존재할 가능성이 높은 영역들을 먼저 식별하고, 그 후에 식별된 영역들을 대상으로 객체 탐지를 수행하는 방식입니다.
이러한 접근 방식은 계산 비용을 크게 줄일 수 있으며, 처리 속도와 정확도를 동시에 향상시킬 수 있습니다.

Region Propsal 방식에 기반한 Object Detection - RCNN

그러면 Sliding Window 방식과 Region Proposal 방식에 데한 개념을 다시 한번 보았으니까, 계속해서 R-CNN (Regions with CNN)을 설명해 보겠습니다.

RCNN(Regions with Convolutional Neural Networks) 객체 탐지 방법의 주요 단계를 설명하고 있습니다.
RCNN은 객체 탐지를 위해 Region Proposal 방식을 사용하여 이미지 내 객체를 찾고 분류합니다.

RCNN의 객체 탐지 과정

입력 이미지 처리: Selective Search를 통해 이미지 내 객체가 있을 가능성이 높은 영역(Region Proposal)을 제안합니다.
특징 추출: AlexNet을 사용하여 각 제안된 영역에서 고수준 특징을 추출합니다.
특징 맵 처리: 추출된 Feature Map(특징 맵)을 Flatten(평탄화)하여 완전 연결 레이어의 입력으로 사용합니다.
객체 분류: SVM Classifier(분류기)를 사용하여 각 객체의 클래스를 예측합니다.
위치 예측: Bounding Box Regression(바운딩 박스 회귀)를 통해 각 객체의 위치를 예측합니다.
최종 결과: 예측된 클래스와 Bounding Box(바운딩 박스)를 통해 이미지에서 객체를 탐지하고 시각화합니다.

R-CNN 개요

R-CNN은 객체 탐지 모델로, 이미지에서 객체를 탐지하고 분류하는 과정을 보여줍니다

주요 단계

Input Image (입력 이미지)
- R-CNN 모델은 입력 이미지를 받습니다. 예시 이미지에서 카우보이와 말이 포함된 사진이 사용되고 있습니다.
Extract Region Proposals (~2k) (영역 제안 추출)
- Selective Search 알고리즘을 사용하여 약 2000개의 잠재적인 객체 위치를 제안합니다. 이 제안된 영역은 다음 단계에서 분석됩니다.
Compute CNN Features (CNN 특징 계산)
- 각 제안된 영역을 CNN에 입력하여 특징을 추출합니다. CNN은 일반적으로 사전 학습된 모델(AlexNet, VGG 등)을 사용하여 다양한 특징 맵을 생성합니다.
Classify Regions (영역 분류)
- SVM 분류기는 CNN에서 추출된 특징을 사용하여 각 영역을 분류합니다. 예를 들어, 사람(person), 비행기(aeroplane), 모니터(tvmonitor) 등의 클래스로 분류됩니다.
- 바운딩 박스 회귀는 객체의 위치를 더욱 정확하게 조정합니다.

Bounding Box Regression

Bounding Box Regression은 객체 탐지 모델에서 객체의 위치를 더 정확하게 예측하기 위해 사용하는 기법입니다.

크게 예측된 바운딩 박스 조정(Adjusted Predictions), 목표(Target), 손실 함수(Loss Function) 3개의 부분으로 나눌 수 있습니다.
- 예측된 바운딩 박스 조정 (Adjusted Predictions): 예측된 바운딩 박스의 좌표와 크기를 조정하여 실제 객체 위치에 맞춥니다.
- 목표 (Target): 실제 객체의 바운딩 박스 좌표와 크기를 기준으로 목표값을 정의합니다.
- 손실 함수(Loss Function): 예측된 값과 실제 값 간의 차이를 최소화하는 손실 함수를 사용하여 모델을 학습시킵니다.

R-CNN 장단점

R-CNN의 장단점에 데하여 알아보겠습니다.

장점: 동시대의 다른 알고리즘 대비 매우 높은 Detection 정확도를 가지고 있습니다.
단점: 너무 느린 Detection 시간과 복잡한 아키텍처 및 학습 프로세스가 단점입니다.
- 하나의 이미지마다 selective search를 수행하여 2000개의 region 영역 이미지들 도출합니다.
- 개별 이미지별로 2000개씩 생성된 region 이미지를 CNN Feature map 생성 합니다.
- 각기 따로 노는 구성 요소들. Selective search, CNN Feature Extractor, SVM과 Bounding box regressor로 구성되어 복잡한 프로세스를 거쳐서 학습 및 Object Detection이 되어야 합니다.

1장의 이미지를 Object Detection 하는데 약 50초가 소요됩니다.

R-CNN 이후 Object Detection 연구 방향성

Deep Learning 기반 Object Detection 성능을 입증
Region Proposal 기반 성능 입증 - DL 기반
Detection 수행 시간을 줄이고 복잡하게 분리된 개별 아키텍처를 통합 할 수 있는 방안 연구에 매진 해야 합니다.

저작자표시 비영리 변경금지

'👀 Computer Vision' 카테고리의 다른 글

[CV] Fast R-CNN (Fast Region-based Convolutional Neural Network) (0)	2024.05.27
[CV] SPPNet - Spatial Pyramid Pooling Net (0)	2024.05.25
[CV] Object Detection & Segmentation을 위한 패키지 & CUDA 소개 (0)	2024.05.20
[CV] OpenCV 영상처리 개요 (0)	2024.05.19
[CV] OpenCV 개요 (0)	2024.05.18

Notice

Object Detection Network 개요

Feature Extractor Network (특징 추출 네트워크)

Object Detection Network (객체 탐지 네트워크)

Image Resolution, FPS, Detection 성능 상관 관계

R-CNN(Regions with CNN)

주요 구성 요소 및 단계

복습 - Sliding Window 방식과 Region Propsal 방식

Sliding Window 방식

Slicing Window 방식 과정

Region Proposal (영역 추정) 방식

Region Propsal 방식에 기반한 Object Detection - RCNN

RCNN의 객체 탐지 과정

R-CNN 개요

주요 단계

Bounding Box Regression

R-CNN 장단점

R-CNN 이후 Object Detection 연구 방향성

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Object Detection Network 개요

Feature Extractor Network (특징 추출 네트워크)

Object Detection Network (객체 탐지 네트워크)

Image Resolution, FPS, Detection 성능 상관 관계

R-CNN(Regions with CNN)

주요 구성 요소 및 단계

복습 - Sliding Window 방식과 Region Propsal 방식

Sliding Window 방식

Slicing Window 방식 과정

Region Proposal (영역 추정) 방식

Region Propsal 방식에 기반한 Object Detection - RCNN

RCNN의 객체 탐지 과정

R-CNN 개요

주요 단계

Bounding Box Regression

R-CNN 장단점

R-CNN 이후 Object Detection 연구 방향성

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바