My Dev & Engineering Repository

OpenCV DNN 패키지를 이용하여 SSD기반 Object Detection 수행

Tensorflow 에서 Pretrained 된 모델 파일을 OpenCV에서 로드하여 이미지와 영상에 대한 Object Detection을 수행해보겠습니다.

입력 이미지로 사용될 이미지 보기

import cv2
import matplotlib.pyplot as plt
%matplotlib inline

img = cv2.imread('../../data/image/beatles01.jpg')
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

print('image shape:', img.shape)
plt.figure(figsize=(12, 12))
plt.imshow(img_rgb)

Tensorflow에서 Pretrained 된 Inference모델(Frozen graph)와 환경파일을 다운로드 받은 후 이를 이용해 OpenCV에서 Inference 모델을 생성합니다.
아래에 다운로드 URL이 있습니다.

TensorFlow Object Detection API

Open Source Computer Vision Library. Contribute to opencv/opencv development by creating an account on GitHub.

github.com

pretrained 모델은 아래의 링크 에서 다운로드 후 압축 해제 하시면 됩니다.

리디렉션 알림

www.google.com

pretrained 모델을 위한 환경 파일은 아래의 링크에서 다운로드 하시면 됩니다.
download된 모델 파일과 config 파일을 인자로 하여 inference 모델을 DNN에서 로딩합니다.

opencv_extra/testdata/dnn/ssd_inception_v2_coco_2017_11_17.pbtxt at master · opencv/opencv_extra

OpenCV extra data. Contribute to opencv/opencv_extra development by creating an account on GitHub.

github.com

# mkdir pretrained; cd pretrained
# wget http://download.tensorflow.org/models/object_detection/ssd_inception_v2_coco_2017_11_17.tar.gz
# wget https://raw.githubusercontent.com/opencv/opencv_extra/master/testdata/dnn/ssd_inception_v2_coco_2017_11_17.pbtxt
# cd ssd_inception_v2_coco_2017_11_17; mv ssd_inception_v2_coco_2017_11_17.pbtxt graph.pbtxt
# https://github.com/opencv/opencv_extra/blob/master/testdata/dnn/ssd_inception_v2_coco_2017_11_17.pbtxt?raw=true -O ./graph.pbtxt

!pwd
!ls pretrained/ssd_inception_v2_coco_2017_11_17

cv_net = cv2.dnn.readNetFromTensorflow('./pretrained/ssd_inception_v2_coco_2017_11_17/frozen_inference_graph.pb', 
                                     './pretrained/ssd_inception_v2_coco_2017_11_17/graph.pbtxt')

OpenCV & Tensorflow의 CoCo 클래스 ID & Name 매핑

Class id가 0~90 이면 TF에서 Faster R-CNN, Mask R-CNN 모델 로드할때 사용되는 Dataset 입니다.
Class id가 1~91 이면 TF에서 SSD 모델 로드할때 사용되는 Dataset입니다.
Class id가 0~79 이면 TF에서 DNN Darkent YOLO 모델을 로드하는데 사용되는 Dataset입니다.

labels_to_names_seq= {0:'person',1:'bicycle',2:'car',3:'motorcycle',4:'airplane',5:'bus',6:'train',7:'truck',8:'boat',9:'traffic light',
                    10:'fire hydrant',11:'street sign',12:'stop sign',13:'parking meter',14:'bench',15:'bird',16:'cat',17:'dog',18:'horse',19:'sheep',
                    20:'cow',21:'elephant',22:'bear',23:'zebra',24:'giraffe',25:'hat',26:'backpack',27:'umbrella',28:'shoe',29:'eye glasses',
                    30:'handbag',31:'tie',32:'suitcase',33:'frisbee',34:'skis',35:'snowboard',36:'sports ball',37:'kite',38:'baseball bat',39:'baseball glove',
                    40:'skateboard',41:'surfboard',42:'tennis racket',43:'bottle',44:'plate',45:'wine glass',46:'cup',47:'fork',48:'knife',49:'spoon',
                    50:'bowl',51:'banana',52:'apple',53:'sandwich',54:'orange',55:'broccoli',56:'carrot',57:'hot dog',58:'pizza',59:'donut',
                    60:'cake',61:'chair',62:'couch',63:'potted plant',64:'bed',65:'mirror',66:'dining table',67:'window',68:'desk',69:'toilet',
                    70:'door',71:'tv',72:'laptop',73:'mouse',74:'remote',75:'keyboard',76:'cell phone',77:'microwave',78:'oven',79:'toaster',
                    80:'sink',81:'refrigerator',82:'blender',83:'book',84:'clock',85:'vase',86:'scissors',87:'teddy bear',88:'hair drier',89:'toothbrush',
                    90:'hair brush'}

이러한 형식으로 모델에서 Dataset의 클래스 ID별 클래스명을 지정합니다.

Image Preprocessing & Object Detection 수행후 결과 시각화

이미지를 preprocessing 수행하여 Network에 입력하고 Object Detection 수행 후 결과를 이미지에 시각화 해보겠습니다.

# 원본 이미지 (633, 806)를 네트웍에 입력시에는 (300, 300)로 resize 함. 
# 이후 결과가 출력되면 resize된 이미지 기반으로 bounding box 위치가 예측 되므로 이를 다시 원복하기 위해 원본 이미지 shape정보 필요
rows = img.shape[0]
cols = img.shape[1]
# cv2의 rectangle()은 인자로 들어온 이미지 배열에 직접 사각형을 업데이트 하므로 그림 표현을 위한 별도의 이미지 배열 생성. 
draw_img = img.copy()

# 원본 이미지 배열을 사이즈 (300, 300)으로, BGR을 RGB로 변환하여 배열 입력
cv_net.setInput(cv2.dnn.blobFromImage(img,  size=(300, 300), swapRB=True, crop=False))
# Object Detection 수행하여 결과를 cv_out으로 반환 
cv_out = cv_net.forward()
print(cv_out.shape)

# bounding box의 테두리와 caption 글자색 지정
green_color=(0, 255, 0)
red_color=(0, 0, 255)

# detected 된 object들을 iteration 하면서 정보 추출
for detection in cv_out[0,0,:,:]:
    score = float(detection[2])
    class_id = int(detection[1])
    # detected된 object들의 score가 0.4 이상만 추출
    if score > 0.4:
        # detected된 object들은 image 크기가 (300, 300)으로 scale된 기준으로 예측되었으므로 다시 원본 이미지 비율로 계산
        left = detection[3] * cols
        top = detection[4] * rows
        right = detection[5] * cols
        bottom = detection[6] * rows
        # labels_to_names 딕셔너리로 class_id값을 클래스명으로 변경. opencv에서는 class_id + 1로 매핑해야함.
        caption = "{}: {:.4f}".format(labels_to_names[class_id], score)
        
        #cv2.rectangle()은 인자로 들어온 draw_img에 사각형을 그림. 위치 인자는 반드시 정수형.
        cv2.rectangle(draw_img, (int(left), int(top)), (int(right), int(bottom)), color=green_color, thickness=2)
        cv2.putText(draw_img, caption, (int(left), int(top - 5)), cv2.FONT_HERSHEY_SIMPLEX, 0.7, red_color, 2)
        print(caption, class_id)

img_rgb = cv2.cvtColor(draw_img, cv2.COLOR_BGR2RGB)

plt.figure(figsize=(12, 12))
plt.imshow(img_rgb)

한번 코드 설명을 해보겠습니다.
cv_out 배열에 저장된 객체 검출 결과를 반복하여 각 객체에 대해 정보를 추출합니다.
객체 검출 신뢰도 점수인 score가 0.4 이상인 경우에만 다음 단계를 진행합니다.
검출된 객체의 좌표는 (300, 300) 크기의 이미지 기준으로 되어 있으므로 원본 이미지 크기 (cols, rows)에 맞게 변환합니다.
labels_to_names 딕셔너리를 사용하여 클래스 ID를 클래스명으로 변환하고, 신뢰도 점수를 포함한 캡션을 생성합니다.
cv2.rectangle 함수를 사용하여 draw_img 이미지에 사각형을 그리며, cv2.putText 함수를 사용하여 캡션을 이미지에 추가합니다.
마지막으로, 캡션과 클래스 ID를 출력합니다. OpenCV는 기본적으로 BGR 형식의 이미지를 사용하므로 이를 RGB 형식으로 변환한 후, plt.figure와 plt.imshow를 사용하여 이미지를 시각화합니다.
이 과정에서 이미지에는 각 객체의 경계 상자와 캡션이 그려지며, 이를 matplotlib을 사용하여 표시합니다.

(1, 1, 100, 7)
person: 0.9696 1
person: 0.9660 1
person: 0.8916 1
person: 0.6298 1
car: 0.8609 3
car: 0.7223 3
car: 0.7184 3
car: 0.7095 3
car: 0.5949 3
car: 0.5511 3
<matplotlib.image.AxesImage at 0x7fda6c0c92b0>

단일 이미지의 Object Detection을 함수로 생성

이번에는 단일 이미지의 Object Detection 부분을 함수로 생성해 보겠습니다.

import time

def get_detected_img(cv_net, img_array, score_threshold, use_copied_array=True, is_print=True):
    
    rows = img_array.shape[0]
    cols = img_array.shape[1]
    
    draw_img = None
    if use_copied_array:
        draw_img = img_array.copy()
        #draw_img = cv2.cvtColor(draw_img, cv2.COLOR_BGR2RGB)
    else:
        draw_img = img_array
    
    cv_net.setInput(cv2.dnn.blobFromImage(img_array, size=(300, 300), swapRB=True, crop=False))
    
    start = time.time()
    cv_out = cv_net.forward()
    
    green_color=(0, 255, 0)
    red_color=(0, 0, 255)

    # detected 된 object들을 iteration 하면서 정보 추출
    for detection in cv_out[0,0,:,:]:
        score = float(detection[2])
        class_id = int(detection[1])
        # detected된 object들의 score가 0.4 이상만 추출
        if score > score_threshold:
            # detected된 object들은 image 크기가 (300, 300)으로 scale된 기준으로 예측되었으므로 다시 원본 이미지 비율로 계산
            left = detection[3] * cols
            top = detection[4] * rows
            right = detection[5] * cols
            bottom = detection[6] * rows
            # labels_to_names 딕셔너리로 class_id값을 클래스명으로 변경. opencv에서는 class_id + 1로 매핑해야함.
            caption = "{}: {:.4f}".format(labels_to_names[class_id], score)

            #cv2.rectangle()은 인자로 들어온 draw_img에 사각형을 그림. 위치 인자는 반드시 정수형.
            cv2.rectangle(draw_img, (int(left), int(top)), (int(right), int(bottom)), color=green_color, thickness=2)
            cv2.putText(draw_img, caption, (int(left), int(top - 5)), cv2.FONT_HERSHEY_SIMPLEX, 0.7, red_color, 2)
    if is_print:
        print('Detection 수행시간:',round(time.time() - start, 2),"초")

    return draw_img

get_detected_img 함수는 입력 이미지(img_array)에서 객체를 검출하고, 검출된 객체의 경계 상자와 캡션을 이미지에 그립니다. 함수는 다음과 같은 단계로 구성됩니다.
먼저, 입력 이미지의 행(rows)과 열(cols) 크기를 가져옵니다. draw_img 변수는 use_copied_array 인자에 따라 입력 이미지의 복사본 또는 원본을 저장합니다.
cv_net.setInput 함수를 사용하여 이미지 데이터를 네트워크의 입력으로 설정합니다.
- 이때 이미지는 (300, 300) 크기로 리사이즈되고, RGB 채널 순서로 변환됩니다.
객체 검출을 시작하기 전에 시작 시간을 기록하고, cv_net.forward() 함수로 객체 검출을 수행합니다.
- 이후 cv_out 배열에서 검출된 객체들을 반복하여 각각의 정보를 추출합니다.
- 신뢰도 점수(score)가 score_threshold 이상인 객체만을 처리합니다.
- 검출된 객체의 좌표는 원본 이미지 크기에 맞게 변환됩니다.
labels_to_names 딕셔너리를 사용하여 클래스 ID를 클래스명으로 변환하고, 신뢰도 점수를 포함한 캡션을 생성합니다.
cv2.rectangle 함수를 사용하여 검출된 객체의 위치에 사각형을 그리고, cv2.putText 함수를 사용하여 캡션을 이미지에 추가합니다.
마지막으로, is_print가 True인 경우 객체 검출 수행 시간을 출력합니다. 변환된 이미지를 반환하며, 이 이미지는 검출된 객체의 경계 상자와 캡션이 포함된 상태입니다.

# image 로드 
img = cv2.imread('../../data/image/john_wick01.jpg')

#coco dataset 클래스명 매핑

# tensorflow inference 모델 로딩
cv_net = cv2.dnn.readNetFromTensorflow('./pretrained/ssd_inception_v2_coco_2017_11_17/frozen_inference_graph.pb', 
                                     './pretrained/ssd_inception_v2_coco_2017_11_17/graph.pbtxt')
# Object Detetion 수행 후 시각화 
draw_img = get_detected_img(cv_net, img, score_threshold=0.4, use_copied_array=True, is_print=True)

img_rgb = cv2.cvtColor(draw_img, cv2.COLOR_BGR2RGB)

plt.figure(figsize=(12, 12))
plt.imshow(img_rgb)

저작자표시 비영리 변경금지 (새창열림)

'👀 Computer Vision' 카테고리의 다른 글

[CV] OpenCV DNN 패키지 & SSD 기반 Object Detection 수행 (0)	2024.07.10
[CV] SSD - Single Shot (Multibox) Detector (0)	2024.07.07
[CV] OpenCV로 Object Detection 구현하기 (Part.1) (0)	2024.06.02
[CV] Faster R-CNN (Faster Region-based Convolutional Neural Network) (0)	2024.05.29
[CV] Fast R-CNN (Fast Region-based Convolutional Neural Network) (0)	2024.05.27

Notice

OpenCV DNN 패키지를 이용하여 SSD기반 Object Detection 수행

입력 이미지로 사용될 이미지 보기

OpenCV & Tensorflow의 CoCo 클래스 ID & Name 매핑

Image Preprocessing & Object Detection 수행후 결과 시각화

단일 이미지의 Object Detection을 함수로 생성

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

OpenCV DNN 패키지를 이용하여 SSD기반 Object Detection 수행

입력 이미지로 사용될 이미지 보기

OpenCV & Tensorflow의 CoCo 클래스 ID & Name 매핑

Image Preprocessing & Object Detection 수행후 결과 시각화

단일 이미지의 Object Detection을 함수로 생성

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바

OpenCV & Tensorflow의 CoCo 클래스 ID & Name 매핑