My Dev & Engineering Repository

주요 Dataset

많은 Detection & Segmentation DL 패키지가 아래의 Dataset들을 기반으로 Pretrained 되어 배포되었습니다.

PASCAL VOC: XML Format, 20개의 Object Category
- Bounding Box 양식으로 구성되어 있습니다(XML), 그리고 하나의 Image에 데하여 Annotation 합니다.
MS COCO: json Form, 80개의 오브젝트 카테고리
Google Open Images: csv Format, 600개의 오브젝트 카테고리

PASCAL VOC 2012

PASCAL VOC(Pattern Analysis, Statistical Modelling and Computational Learning Visual Object Classes)은 컴퓨터 비전 분야에서 널리 사용되는 데이터셋 및 평가 챌린지입니다.

이 데이터셋은 객체 검출(Object Detection), 이미지 분할(Image Segmentation), 이미지 분류(Image Classification) 등 여러 컴퓨터 비전 작업에서 모델의 성능을 평가하는 데 사용됩니다.
PASCAL VOC 데이터셋은 다양한 시각적 객체 클래스를 포함합니다. 예를 들어, 2007년과 2012년의 데이터셋은 각각 20개의 객체 클래스를 포함합니다.
주요 클래스에는 사람(person), 자전거(bicycle), 자동차(car), 고양이(cat), 개(dog), 식탁(dining table) 등이 있습니다.

The PASCAL Visual Object Classes Challenge 2012 (VOC2012)

2006 10 classes: bicycle, bus, car, cat, cow, dog, horse, motorbike, person, sheep. Train/validation/test: 2618 images containing 4754 annotated objects. Images from flickr and from Microsoft Research Cambridge (MSRC) dataset The MSRC images were easier th

host.robots.ox.ac.uk

Annotation

한번 Annotation에 데하여 알아보겠습니다. 무엇일까요?

이미지의 Detection 정보를 별도의 설명 파일로 제공되는 것을 일반적으로 Annotation 이라고 합니다.
Annotation은 Object의 Bounding Box 위치나 Object 이름등을 특정 포맷(설명파일)으로 제공합니다.

이 Annotation 파일의 노란색 박스 안에 있는 부분은 원본 이미지의 비행기를 Bounding Box화 한 부분입니다.

PASCAL VOC Dataset 구조

한번 PASCAL VOC Dataset의 구조에 데하여 한번 알아보겠습니다.

Annotations: Xml 포맷이며, 개별 xml파일은 한 개 image에 대한 Annotation 정보를 가지고 있습니다.
- 확장자 xml을 제외한 파일명은 image 파일명(확장자 jpg를 제외한)과 동일하게 Mapping 합니다.
ImageSet: 어떤 이미지를 train, test, trainval, val에 사용할 것인지에 대한 매핑 정보를 개별 오브젝트별로 파일로 가지고 있습니다.
JPEGImages: Detection과 Segmentation에 사용될 원본 이미지 입니다.
Segmentation Class: Semantic Segmentation에 사용될 masking 이미지 입니다.
Segmentation Object: Instance Segmentation에 사용될 masking 이미지 입니다.

Annotation 파일 예시

Annotation 파일 2007_000032.xml 파일 일부 입니다.

2007_000032.jpg 파일에 대한 Annotation 정보를 가지고 있습니다.

PASCAL VOC 2012 Dataset 탐색하기

한번 PASCAL VOC 2012 Dataset 탐색해보겠습니다.

PASCAL VOC 2012 데이터 다운로드 받기

!wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
!tar -xvf VOCtrainval_11-May-2012.tar -C ~/DLCV/data/voc

!ls ~/DLCV/data/voc/VOCdevkit/VOC2012

!ls ~/DLCV/data/voc/VOCdevkit/VOC2012/JPEGImages | head -n 5

JPEGImasge Directory에 있는 임의의 이미지 보기

import cv2
import matplotlib.pyplot as plt
%matplotlib inline

img = cv2.imread('../../data/voc/VOCdevkit/VOC2012/JPEGImages/2007_000032.jpg')
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # BGR -> RGB 변환
print('img shape:', img.shape)

plt.figure(figsize=(8, 8))
plt.imshow(img_rgb)
plt.show()

img shape: (281, 500, 3)

Annotations 디렉토리에 있는 임의의 annotation 파일 보기

!cat ~/DLCV/data/voc/VOCdevkit/VOC2012/Annotations/2007_000032.xml

<annotation>
	<folder>VOC2012</folder>
	<filename>2007_000032.jpg</filename>
	<source>
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>
		<width>500</width>
		<height>281</height>
		<depth>3</depth>
	</size>
	<segmented>1</segmented>
	<object>
		<name>aeroplane</name>
		<pose>Frontal</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>104</xmin>
			<ymin>78</ymin>
			<xmax>375</xmax>
			<ymax>183</ymax>
		</bndbox>
	</object>
	<object>
		<name>aeroplane</name>
		<pose>Left</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>133</xmin>
			<ymin>88</ymin>
			<xmax>197</xmax>
			<ymax>123</ymax>
		</bndbox>
	</object>
	<object>
		<name>person</name>
		<pose>Rear</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>195</xmin>
			<ymin>180</ymin>
			<xmax>213</xmax>
			<ymax>229</ymax>
		</bndbox>
	</object>
	<object>
		<name>person</name>
		<pose>Rear</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>26</xmin>
			<ymin>189</ymin>
			<xmax>44</xmax>
			<ymax>238</ymax>
		</bndbox>
	</object>
</annotation>

이 XML 파일은 PASCAL VOC 데이터셋에서 사용되는 어노테이션 파일의 예시입니다.
이미지 내 객체의 위치와 속성을 정의하는 데 사용됩니다.
각 객체는 이미지 내의 바운딩 박스 좌표와 함께 클래스 라벨, 포즈, 그리고 기타 속성을 포함합니다.
XML 파일 구조를 요약해보면
이미지의 크기: 500x281, 3채널(RGB)
객체는 4개가 있고, 아래에 정보가 있습니다.

`aeroplane`: 포즈는 `Frontal`, Bounding Box 좌표는 (104, 78), (375, 183)
`aeroplane`: 포즈는 `Left`, Bounding Box 좌표는 (133, 88), (197, 123)
`person`: 포즈는 `Rear`, Bounding Box 좌표는 (195, 180), (213, 229)
`person`: 포즈는 `Rear`, Bounding Box 좌표는 (26, 189), (44, 238)

SegmentationObject 디렉토리에 있는 있는 임의의 maksing 이미지 보기

img = cv2.imread('../../data/voc/VOCdevkit/VOC2012/SegmentationObject/2007_000032.png')
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
print('img shape:', img.shape)

plt.figure(figsize=(8, 8))
plt.imshow(img_rgb)
plt.show()

img shape: (281, 500, 3)

Annotation xml 파일에 있는 요소들을 파싱하여 접근하기

import os
import random

VOC_ROOT_DIR ="../../data/voc/VOCdevkit/VOC2012/"
ANNO_DIR = os.path.join(VOC_ROOT_DIR, "Annotations") # Annotations - Directory를 의미합니다.
IMAGE_DIR = os.path.join(VOC_ROOT_DIR, "JPEGImages")

xml_files = os.listdir(ANNO_DIR)                       
print(xml_files[:5]); print(len(xml_files))

['2008_007279.xml', '2010_005972.xml', '2012_003581.xml', '2008_004452.xml', '2009_003508.xml']
17125 - 총개수

# !pip install lxml
import os
import xml.etree.ElementTree as ET

xml_file = os.path.join(ANNO_DIR, '2007_000032.xml')

# XML 파일을 Parsing 하여 Element 생성
tree = ET.parse(xml_file)
root = tree.getroot()

# image 관련 정보는 root의 자식으로 존재
image_name = root.find('filename').text
full_image_name = os.path.join(IMAGE_DIR, image_name)
image_size = root.find('size') # element의 개수만큼 변환받음
image_width = int(image_size.find('width').text)
image_height = int(image_size.find('height').text)

# 파일내에 있는 모든 object Element(object Element 개수만큼)를 찾음.
objects_list = []
for obj in root.findall('object'): # Iterator로 변환
    # object element의 자식 element에서 bndbox를 찾음. 
    xmlbox = obj.find('bndbox')
    # bndbox element의 자식 element에서 xmin,ymin,xmax,ymax를 찾고 이의 값(text)를 추출 
    x1 = int(xmlbox.find('xmin').text)
    y1 = int(xmlbox.find('ymin').text)
    x2 = int(xmlbox.find('xmax').text)
    y2 = int(xmlbox.find('ymax').text)
    
    bndbox_pos = (x1, y1, x2, y2)
    class_name=obj.find('name').text
    object_dict={'class_name': class_name, 'bndbox_pos':bndbox_pos}
    objects_list.append(object_dict)

print('full_image_name:', full_image_name,'\n', 'image_size:', (image_width, image_height))

for object in objects_list:
    print(object)

full_image_name: ../../data/voc/VOCdevkit/VOC2012/JPEGImages/2007_000032.jpg 
 image_size: (500, 281)
{'class_name': 'aeroplane', 'bndbox_pos': (104, 78, 375, 183)}
{'class_name': 'aeroplane', 'bndbox_pos': (133, 88, 197, 123)}
{'class_name': 'person', 'bndbox_pos': (195, 180, 213, 229)}
{'class_name': 'person', 'bndbox_pos': (26, 189, 44, 238)}

Annotation내의 Object들의 bounding box 정보를 이용하여 Bounding box 시각화

import cv2
import os
import xml.etree.ElementTree as ET

xml_file = os.path.join(ANNO_DIR, '2007_000032.xml')

tree = ET.parse(xml_file)
root = tree.getroot()

image_name = root.find('filename').text
full_image_name = os.path.join(IMAGE_DIR, image_name)

img = cv2.imread(full_image_name)
# opencv의 rectangle()는 인자로 들어온 이미지 배열에 그대로 사각형을 그려주므로 별도의 이미지 배열에 그림 작업 수행. 
draw_img = img.copy()
# OpenCV는 RGB가 아니라 BGR이므로 빨간색은 (0, 0, 255)
green_color=(0, 255, 0)
red_color=(0, 0, 255)

# 파일내에 있는 모든 object Element를 찾음.
objects_list = []
for obj in root.findall('object'):
    xmlbox = obj.find('bndbox')
    
    left = int(xmlbox.find('xmin').text)
    top = int(xmlbox.find('ymin').text)
    right = int(xmlbox.find('xmax').text)
    bottom = int(xmlbox.find('ymax').text)
    
    class_name=obj.find('name').text
    
    # draw_img 배열의 좌상단 우하단 좌표에 녹색으로 box 표시 
    cv2.rectangle(draw_img, (left, top), (right, bottom), color=green_color, thickness=1)
    # draw_img 배열의 좌상단 좌표에 빨간색으로 클래스명 표시
    cv2.putText(draw_img, class_name, (left, top - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.4, red_color, thickness=1)

img_rgb = cv2.cvtColor(draw_img, cv2.COLOR_BGR2RGB)
plt.figure(figsize=(10, 10))
plt.imshow(img_rgb)

<matplotlib.image.AxesImage at 0x7fc2d004a780>

MS-COCO Dataset

MS-COCO (Microsoft Common Objects in Context) 데이터셋은 컴퓨터 비전 연구를 위한 대규모 데이터셋 입니다.

Object Detection(객체 검출), Image Segmentation(이미지 분할), Image Captioning(이미지 캡셔닝) 등 다양한 Vision 작업에 사용됩니다.
COCO 데이터셋은 이미지에서 객체의 위치와 클래스뿐만 아니라, 객체의 Segmentation 정보와 이미지 설명(캡션)도 제공하여 풍부한 정보를 제공합니다.
80개 Object Category, 300K의 Image들과 1.5 Million 개의 object들이 있습니다.
- (하나의 image에 평균 5개의 Object들로 구성)
그리고 Tensorflow Object Detection API 및 많은 오픈 소스 계열의 주요 패키지들은 COCO Dataset으로 Pretrained된 모델을 제공합니다.

MS-COCO Dataset 오브젝트 카테고리

MS-COCO Dataset 다운로드

여기서 MS-COCO Dataset을 다운로드 할 수 있습니다.

COCO - Common Objects in Context

cocodataset.org

COCO Explorer

Dataset 아래 Explorer를 누르면, 이렇게 Category별로 각자 Object를 누르면 Dataset을 볼 수 있습니다.

MS-COCO Dataset 구성

COCO 2017 데이터 세트 기준입니다.

이미지 파일들을 Json 포맷인 한개의 파일로 구성됩니다. (한개의 Line 으로 구성)
아래와 같은 대 분류로 구성되어 있습니다.
- Info: COCO Dataset 생성 일자등을 가지는 헤더 정보 입니다.
- license: 이미지 파일들의 라이선스에 대한 정보 입니다.
- images: 모든 이미지들의 id, 파일명, 이미지 너비, 높이 정보 입니다.
- annotations: 대상 image및 object id Segmentation, bounding box, 픽셀 영역 등의 상세 정보를 가집니다.
- categories: 80개 오브젝트 카테고리에 대한 id, 이름, Group을 가집니다.

MS-COCO JSON 파일 예시

1개의 이미지에 데한 특성을 예시로 가지고 왔습니다.

MS-COCO Dataset 특징

COCO Dataset은 이미지 한 개에 여러 오브젝트들을 가지고 있으며 타 데이터 세트에 비해 난이도가 높은 데이터를 제공합니다.

Categories per image: 하나의 이미지당 몇개의 Category?
Instances per image: Object 몇개?
Percentiage of images: 이미지에 대한 확률
Number of Cateories: 객체(Category)의 개수

다양한 객체 클래스
- COCO 데이터셋은 80개의 객체 클래스를 포함합니다.
- 주요 클래스에는 사람(person), 자전거(bicycle), 자동차(car), 개(dog), 고양이(cat), 책상(desk), 의자(chair) 등이 있습니다.
풍부한 Annotation
- Object Detection: 이미지 내 객체의 Bounding Box 좌표와 Class 라벨을 제공합니다.
- Image Segmentation: 객체의 픽셀 단위 분할 정보를 제공합니다 (Polygon 형식).
- 키포인트 검출: 사람의 주요 신체 부위(예: 눈, 귀, 어깨 등)의 위치 정보를 제공합니다.
- Image Captioning: 이미지에 대한 자연어 설명을 여러 개 제공합니다.
대규모 Dataset
- COCO 데이터셋은 수십만 장의 이미지를 포함하며, 각 이미지에는 여러 객체가 포함되어 있어 풍부한 학습 데이터를 제공합니다.
- 훈련(train), 검증(val), 테스트(test) 세트로 나뉘어 있습니다.
복잡한 장면
- COCO 데이터셋은 실제 상황에서의 복잡한 장면을 포함하여, 객체들이 다양한 크기와 형태로 나타나고 상호작용하는 모습을 담고 있습니다.

코코 익스플로러

저작자표시 비영리 변경금지 (새창열림)

'👀 Computer Vision' 카테고리의 다른 글

[CV] OpenCV 영상처리 개요 (0)	2024.05.19
[CV] OpenCV 개요 (0)	2024.05.18
[CV] Precision(정밀도) & Recall(재현율) (0)	2024.05.15
[CV] Object Detection 방식 & 성능 평가 (0)	2024.05.13
[CV] Object Detection의 이해 (0)	2024.05.10

Notice

주요 Dataset

PASCAL VOC 2012

Annotation

PASCAL VOC Dataset 구조

Annotation 파일 예시

PASCAL VOC 2012 Dataset 탐색하기

SegmentationObject 디렉토리에 있는 있는 임의의 maksing 이미지 보기

Annotation xml 파일에 있는 요소들을 파싱하여 접근하기

Annotation내의 Object들의 bounding box 정보를 이용하여 Bounding box 시각화

MS-COCO Dataset

MS-COCO Dataset 오브젝트 카테고리

MS-COCO Dataset 다운로드

COCO Explorer

MS-COCO Dataset 구성

MS-COCO JSON 파일 예시

MS-COCO Dataset 특징

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

주요 Dataset

PASCAL VOC 2012

Annotation

PASCAL VOC Dataset 구조

Annotation 파일 예시

PASCAL VOC 2012 Dataset 탐색하기

SegmentationObject 디렉토리에 있는 있는 임의의 maksing 이미지 보기

Annotation xml 파일에 있는 요소들을 파싱하여 접근하기

Annotation내의 Object들의 bounding box 정보를 이용하여 Bounding box 시각화

MS-COCO Dataset

MS-COCO Dataset 오브젝트 카테고리

MS-COCO Dataset 다운로드

COCO Explorer

MS-COCO Dataset 구성

MS-COCO JSON 파일 예시

MS-COCO Dataset 특징

'👀 Computer Vision' 카테고리의 다른 글

티스토리툴바