์ด๋ฒ ๊ธ์์๋ Object Detection Network ๊ตฌ์กฐ ๊ฐ์, FPS, Resolution๊ณผ ์ฑ๋ฅ ์๊ด ๊ด๊ณ, R-CNN ์ ๋ฐํ์ฌ ์์ ๋ณด๊ฒ ์ต๋๋ค.
Object Detection Network ๊ฐ์
- Object Detetction Network ๊ตฌ์กฐ๋ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ต๋๋ค:
- ํน์ง ์ถ์ถ ๋คํธ์ํฌ(Feature Extractor Network)์ ๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ(Object Detection Network)์ ๋๋ค.
- ๋ ๋คํธ์ํฌ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํน์ ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ๋ฉ๋๋ค.
Feature Extractor Network (ํน์ง ์ถ์ถ ๋คํธ์ํฌ)
- ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์ ์ฉํ ํน์ง์ ์ถ์ถํฉ๋๋ค.
- VGG, ResNet, Inception ๋ฑ๊ณผ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ, ๋ณดํต ImageNet ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต(Pretrained)๋ฉ๋๋ค.
- ์ฌ๋ฌ ๊ฐ์ ๋ ์ด์ด(Layer 1, Layer 2, ..., Layer N)๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
- ์ถ์ถ๋ ํน์ง ๋งต(feature map)์ ์์ฑํ์ฌ ๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ์ ์ ๋ฌํฉ๋๋ค.
Object Detection Network (๊ฐ์ฒด ํ์ง ๋คํธ์ํฌ)
- ์ถ์ถ๋ ํน์ง ๋งต์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ , ๊ฐ ๊ฐ์ฒด์ ํด๋์ค์ ์์น๋ฅผ ์์ธกํฉ๋๋ค.
- ๋ณดํต Pascal VOC๋ MS-COCO์ ๊ฐ์ ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ์ผ๋ก Pre-Train ๋ฉ๋๋ค.
- Feature Extractor Network์ Feature map์ผ๋ก ๊ธฐ๋ฐ.
- ์ฌ๋ฌ ๊ฐ์ ๋ ์ด์ด(Layer A, Layer B, Layer C)๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋ ์ด์ด๋ ํน์ ์ญํ ์ ์ํํฉ๋๋ค.
- ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋์ค ๋ ์ด๋ธ์ ํฌํจํ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
- ๋ํ ๋ณ๋์ Network๋ฅผ ์ฌ์ฉํ๋ค๋ ํน์ง์ด ์์ต๋๋ค.
Image Resolution, FPS, Detection ์ฑ๋ฅ ์๊ด ๊ด๊ณ
- ์ฌ๊ธฐ์ ๋ด์ผํ๋๊ฑด FPS์ Image Resoultion์ ๊ด๊ณ ์ ๋๋ค. ์๋ก ์๊ด๊ด๊ณ ์ ๋๋ค.
- Image์ Resoultion์ด ๋์์๋ก? 1์ด์ Object Detection ํ ์ ์๋ ์ด๋ฏธ์ง์ ๊ฐ์๊ฐ ๊ฐ์ํฉ๋๋ค.
R-CNN(Regions with CNN)
์๋๋ Object Detection์ ๊ฐ์์ ๋๋ค. ์ฌ์ง ์๋ ๋งํฌ ๋ฌ์๋์ํ ๋ ์ฐธ๊ณ ํด์ฃผ์ธ์!
[CV] Object Detection์ ์ดํด
Intro Object DetectionObject Detection์ Deep Learning(๋ฅ๋ฌ๋) ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํ์์ต๋๋ค.Object detection์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ค์ํ ์ฐ๊ตฌ ์ฃผ์ ์ค ํ๋๋ก, ์ด๋ฏธ์ง๋ ๋น๋์ค ๋ด์์ ๊ฐ์ฒด์ ์์น๋ฅผ ์ฐพ๊ณ , ํด
daehyun-bigbread.tistory.com
- ์ด ๋ค์ด์ด๊ทธ๋จ์ ๊ฐ์ฒด ํ์ง ๊ณผ์ ์ ์ฃผ์ ๋จ๊ณ๋ฅผ ์๊ฐ์ ์ผ๋ก ์ค๋ช ํ๋ฉฐ, ๊ฐ ๋จ๊ณ๊ฐ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ฃผ์ ๊ตฌ์ฑ ์์ ๋ฐ ๋จ๊ณ
- ์๋ณธ ์ด๋ฏธ์ง (Input Image)
- ๊ฐ์ฒด ํ์ง์ ์์์ ์ ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ ๋คํธ์ํฌ์ ์ ๋ฌ๋์ด ๋ถ์๋ฉ๋๋ค.
- ์์๋ก, ๋นจ๊ฐ์ ์ฐจ๊ฐ ํฌํจ๋ ์ด๋ฏธ์ง๊ฐ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
- Feature Extractor (ํน์ง ์ถ์ถ๊ธฐ)
- ์ฌ๊ธฐ์๋ VGG-16 ๋คํธ์ํฌ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์ ์ฉํ ํน์ง์ ์ถ์ถํฉ๋๋ค. VGG-16์ ์ฌ๋ฌ ๊ฐ์ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด์ ํ๋ง ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ด๋ฏธ์ง์ ๋ค์ํ ํจํด๊ณผ ํน์ง์ ์ถ์ถํฉ๋๋ค.
- ์ถ์ถ๋ ํน์ง ๋งต(Feature Map)์ ๋ค์ ๋จ๊ณ๋ก ์ ๋ฌ๋ฉ๋๋ค.
- Feature Map (ํน์ง ๋งต)
- ํน์ง ์ถ์ถ๊ธฐ์์ ์ถ์ถ๋ ๋ค์ฐจ์ ๋ฐ์ดํฐ์ ๋๋ค.
- ์ฌ๋ฌ ๊ฐ์ ์ฑ๋๋ก ์ด๋ฃจ์ด์ง ํ ์๋ก, ๊ฐ ์ฑ๋์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ์ธก๋ฉด์ ๋ํ๋ ๋๋ค.
- Fully Connected Layer - FC (์์ ์ฐ๊ฒฐ ๋ ์ด์ด)
- ํน์ง ๋งต์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๊ฐ ํฝ์ ์ด ์ด๋ค ํด๋์ค์ ์ํ๋์ง ์์ธกํฉ๋๋ค.
- ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง์ ๊ฐ์ฒด๊ฐ ์๋์ฐจ์ผ ํ๋ฅ ์ด 0.8, ๊ณ ์์ด์ผ ํ๋ฅ ์ด 0.1, ๊ฐ์ผ ํ๋ฅ ์ด 0.1๋ก ์ถ๋ ฅ๋ฉ๋๋ค.
- Softmax Class Score (ํด๋์ค ์ ์)
- ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ์ ๋ํ๋ ๋๋ค.
- ์์: Car: 0.8, Cat: 0.1, Dog: 0.1
- Bounding Box Regression (๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท)
- ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํฉ๋๋ค. ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ฑํฉ๋๋ค.
- Bounding Box ์ ์ขํ(x1, y1, x2, y2)๋ฅผ ์์ธกํ๋ฉฐ, ์ด๋ฅผ ํตํด ๊ฐ์ฒด์ ์์น์ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
- ๊ฐ ํด๋์ค์ ๋ํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ. ์๋ฅผ ๋ค์ด, ์๋์ฐจ ํด๋์ค์ ๋ํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๊ฐ (x1, y1, x2, y2)๋ก ์ถ๋ ฅ๋ฉ๋๋ค.
๋ณต์ต - Sliding Window ๋ฐฉ์๊ณผ Region Propsal ๋ฐฉ์
Sliding Window ๋ฐฉ์
- R-CNN (Regions with CNN)์ ์ค๋ช ํ๋ค๊ฐ ๊ฐ์๊ธฐ ์ Sliding Window ๋ฐฉ์๊ณผ Region Proposal ๋ฐฉ์์ ๋ฐํ ์ค๋ช ์ ๊ฐ์๊ธฐ ์ ๋ค๊ณ ์จ ์ด์ ๋ ๋ฌด์์ผ๊น์?
- ์ด์ ๋ R-CNN์ด Region Proposal ๋ฐฉ์์ ๊ธฐ๋ฐ์ ํ๊ณ ์๊ณ , Sliding Window ๋ฐฉ์์ด ๋ค์ด๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ํ๋ฒ ๋ณต์ตํ๋ ๊น์ ์๋์ ๊ฐ๋ ๋ค์ ํ๋ฒ ํ์ด๋ณธ ๋ค์, R-CNN ์ ๋ฐํ์ฌ ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค.
Sliding Window ๋ฐฉ์์ Window๋ฅผ ์ผ์ชฝ ์๋จ๋ถํฐ ์ค๋ฅธ์ชฝ ํ๋จ์ผ๋ก ์ด๋์ํค๋ฉด์ Object๋ฅผ Detection ํ๋ ๋ฐฉ์์ ๋๋ค.
์ฝ๊ฐ ์ด์ดํ, ์ธ๋ฐํ๊ฒ window๋ฅผ ์ด๋์ํค๋ฉด์ ๊ฐ์ฒด ํ์ง๋ฅผ ํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด๋ฏธ์ง๋ฅผ ์์ ์์ญ์ผ๋ก ๋๋๊ณ , ๊ฐ๊ฐ์ ์์ ์์ญ(์๋์ฐ)์์ ๊ฐ์ฒด๊ฐ ์กด์ฌํ๋์ง๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ์ฅ์ ์ ๋ง์ ์์ญ์ Scan ํ ์ ์๋๊ฒ, Window์ ํํ๋ Image Scale์ ๋ค์ํ๊ฒ ๋ณ๊ฒฝํ ์ ์๋ค๋ ์ ์ ๋๋ค.
- ๋จ์ ์ Object ์๋ ์์ญ๋ ๋ฌด์กฐ๊ฑด ์ฌ๋ผ์ด๋ฉ ํ์ฌ์ผ ํ๋ฉฐ ์ฌ๋ฌ ํํ์ Window์ ์ฌ๋ฌ Scale์ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์ค์บํด์ ๊ฒ์ถํด์ผ ํ๋ฏ๋ก ์ํ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ๊ฒ์ถ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ๋ฎ์ต๋๋ค.
- Region Proposal(์์ญ ์ถ์ ) ๊ธฐ๋ฒ์ ๋ฑ์ฅ์ผ๋ก ํ์ฉ๋๋ ๋จ์ด์ก์ง๋ง Object Detection ๋ฐ์ ์ ์ํ ๊ธฐ์ ์ ํ ๋ ์ ๊ณตํ๋ค๋ ์ ์ด ์์ต๋๋ค.
Slicing Window ๋ฐฉ์ ๊ณผ์
์งํ ๋ฐฉ์์ ์๋์ ๊ฐ์ต๋๋ค.
- ์๋์ฐ ํฌ๊ธฐ ์ค์ : ํ์งํ๊ณ ์ ํ๋ ๊ฐ์ฒด์ ํฌ๊ธฐ์ ๋ฐ๋ผ ์๋์ฐ์ ํฌ๊ธฐ๋ฅผ ์ ํฉ๋๋ค. ์ด ์๋์ฐ๋ ์ด๋ฏธ์ง ์ ์ฒด์ ๊ฑธ์ณ ์ด๋ํ ๊ฒ์ ๋๋ค.
- ์๋์ฐ ์ด๋: ์๋์ฐ๋ฅผ ์ด๋ฏธ์ง์ ์์์ ์์๋ถํฐ, ์ผ๋ฐ์ ์ผ๋ก ์ข์ธก ์๋จ์์ ์ฐ์ธก ํ๋จ ๋ฐฉํฅ์ผ๋ก, ์ง์ ๋ ์คํ ํฌ๊ธฐ๋งํผ ์ด๋์ํค๋ฉฐ ๊ฐ ์์น์์ ๊ฐ์ฒด๋ฅผ ํ์งํฉ๋๋ค.
- ๊ฐ์ฒด ํ์ง: ๊ฐ ์๋์ฐ ์์น์์, ์ด๋ฏธ ์ ์๋ ๊ฐ์ฒด ํ์ง ์๊ณ ๋ฆฌ์ฆ(์: Haar feature-based cascade classifiers, SVM ๋ฑ)์ ์ฌ์ฉํ์ฌ ์๋์ฐ ๋ด๋ถ์ ๊ฐ์ฒด๊ฐ ์๋์ง ํ๋จํฉ๋๋ค.
- ๊ฒฐ๊ณผ ์ฒ๋ฆฌ: ๊ฐ ์๋์ฐ์์์ ํ์ง ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ, ์ต์ข ์ ์ผ๋ก ๊ฐ์ฒด์ ์์น๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ์ด๋ ์ฌ๋ฌ ์๋์ฐ์์ ์ค๋ณต์ผ๋ก ๊ฐ์ฒด๋ฅผ ํ์งํ์ ์ ์์ผ๋ฏ๋ก, ์ค๋ณต ์ ๊ฑฐ ๊ณผ์ (non-max suppression)์ ๊ฑฐ์ณ ์ต์ข ํ์ง ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฆฌํฉ๋๋ค.
Region Proposal (์์ญ ์ถ์ ) ๋ฐฉ์
"Object๊ฐ ์์ ๋งํ ํ๋ณด ์์ญ์ ์ฐพ์" ์ด๋ฌํ ๊ฐ๋ ์ผ๋ก ์์ญ ์ถ์ ์ ํ๋ ๋ฐฉ์์ผ๋ก Object Detection์ ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง ๋ด์์ ๊ฐ์ฒด๊ฐ ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ด ๋์ ์์ญ๋ค์ ๋จผ์ ์๋ณํ๊ณ , ๊ทธ ํ์ ์๋ณ๋ ์์ญ๋ค์ ๋์์ผ๋ก ๊ฐ์ฒด ํ์ง๋ฅผ ์ํํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ผ ์ ์์ผ๋ฉฐ, ์ฒ๋ฆฌ ์๋์ ์ ํ๋๋ฅผ ๋์์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
Region Propsal ๋ฐฉ์์ ๊ธฐ๋ฐํ Object Detection - RCNN
๊ทธ๋ฌ๋ฉด Sliding Window ๋ฐฉ์๊ณผ Region Proposal ๋ฐฉ์์ ๋ฐํ ๊ฐ๋ ์ ๋ค์ ํ๋ฒ ๋ณด์์ผ๋๊น, ๊ณ์ํด์ R-CNN (Regions with CNN)์ ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค.
- RCNN(Regions with Convolutional Neural Networks) ๊ฐ์ฒด ํ์ง ๋ฐฉ๋ฒ์ ์ฃผ์ ๋จ๊ณ๋ฅผ ์ค๋ช ํ๊ณ ์์ต๋๋ค.
- RCNN์ ๊ฐ์ฒด ํ์ง๋ฅผ ์ํด Region Proposal ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ฅผ ์ฐพ๊ณ ๋ถ๋ฅํฉ๋๋ค.
RCNN์ ๊ฐ์ฒด ํ์ง ๊ณผ์
- ์ ๋ ฅ ์ด๋ฏธ์ง ์ฒ๋ฆฌ: Selective Search๋ฅผ ํตํด ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๊ฐ ์์ ๊ฐ๋ฅ์ฑ์ด ๋์ ์์ญ(Region Proposal)์ ์ ์ํฉ๋๋ค.
- ํน์ง ์ถ์ถ: AlexNet์ ์ฌ์ฉํ์ฌ ๊ฐ ์ ์๋ ์์ญ์์ ๊ณ ์์ค ํน์ง์ ์ถ์ถํฉ๋๋ค.
- ํน์ง ๋งต ์ฒ๋ฆฌ: ์ถ์ถ๋ Feature Map(ํน์ง ๋งต)์ Flatten(ํํํ)ํ์ฌ ์์ ์ฐ๊ฒฐ ๋ ์ด์ด์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- ๊ฐ์ฒด ๋ถ๋ฅ: SVM Classifier(๋ถ๋ฅ๊ธฐ)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๊ฐ์ฒด์ ํด๋์ค๋ฅผ ์์ธกํฉ๋๋ค.
- ์์น ์์ธก: Bounding Box Regression(๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท)๋ฅผ ํตํด ๊ฐ ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํฉ๋๋ค.
- ์ต์ข ๊ฒฐ๊ณผ: ์์ธก๋ ํด๋์ค์ Bounding Box(๋ฐ์ด๋ฉ ๋ฐ์ค)๋ฅผ ํตํด ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ ์๊ฐํํฉ๋๋ค.
R-CNN ๊ฐ์
R-CNN์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ ๋ถ๋ฅํ๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค
์ฃผ์ ๋จ๊ณ
- Input Image (์
๋ ฅ ์ด๋ฏธ์ง)
- R-CNN ๋ชจ๋ธ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ต๋๋ค. ์์ ์ด๋ฏธ์ง์์ ์นด์ฐ๋ณด์ด์ ๋ง์ด ํฌํจ๋ ์ฌ์ง์ด ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
- Extract Region Proposals (~2k) (์์ญ ์ ์ ์ถ์ถ)
- Selective Search ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ฝ 2000๊ฐ์ ์ ์ฌ์ ์ธ ๊ฐ์ฒด ์์น๋ฅผ ์ ์ํฉ๋๋ค. ์ด ์ ์๋ ์์ญ์ ๋ค์ ๋จ๊ณ์์ ๋ถ์๋ฉ๋๋ค.
- Compute CNN Features (CNN ํน์ง ๊ณ์ฐ)
- ๊ฐ ์ ์๋ ์์ญ์ CNN์ ์ ๋ ฅํ์ฌ ํน์ง์ ์ถ์ถํฉ๋๋ค. CNN์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ(AlexNet, VGG ๋ฑ)์ ์ฌ์ฉํ์ฌ ๋ค์ํ ํน์ง ๋งต์ ์์ฑํฉ๋๋ค.
- Classify Regions (์์ญ ๋ถ๋ฅ)
- SVM ๋ถ๋ฅ๊ธฐ๋ CNN์์ ์ถ์ถ๋ ํน์ง์ ์ฌ์ฉํ์ฌ ๊ฐ ์์ญ์ ๋ถ๋ฅํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋(person), ๋นํ๊ธฐ(aeroplane), ๋ชจ๋ํฐ(tvmonitor) ๋ฑ์ ํด๋์ค๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
- ๋ฐ์ด๋ฉ ๋ฐ์ค ํ๊ท๋ ๊ฐ์ฒด์ ์์น๋ฅผ ๋์ฑ ์ ํํ๊ฒ ์กฐ์ ํฉ๋๋ค.
Bounding Box Regression
Bounding Box Regression์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์์ ๊ฐ์ฒด์ ์์น๋ฅผ ๋ ์ ํํ๊ฒ ์์ธกํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ํฌ๊ฒ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์กฐ์ (Adjusted Predictions), ๋ชฉํ(Target), ์์ค ํจ์(Loss Function) 3๊ฐ์ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ต๋๋ค.
- ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์กฐ์ (Adjusted Predictions): ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ขํ์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์ฌ ์ค์ ๊ฐ์ฒด ์์น์ ๋ง์ถฅ๋๋ค.
- ๋ชฉํ (Target): ์ค์ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ํฌ๊ธฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ชฉํ๊ฐ์ ์ ์ํฉ๋๋ค.
- ์์ค ํจ์(Loss Function): ์์ธก๋ ๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค.
R-CNN ์ฅ๋จ์
R-CNN์ ์ฅ๋จ์ ์ ๋ฐํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค.
- ์ฅ์ : ๋์๋์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ ๋๋น ๋งค์ฐ ๋์ Detection ์ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ๋จ์ : ๋๋ฌด ๋๋ฆฐ Detection ์๊ฐ๊ณผ ๋ณต์กํ ์ํคํ
์ฒ ๋ฐ ํ์ต ํ๋ก์ธ์ค๊ฐ ๋จ์ ์
๋๋ค.
- ํ๋์ ์ด๋ฏธ์ง๋ง๋ค selective search๋ฅผ ์ํํ์ฌ 2000๊ฐ์ region ์์ญ ์ด๋ฏธ์ง๋ค ๋์ถํฉ๋๋ค.
- ๊ฐ๋ณ ์ด๋ฏธ์ง๋ณ๋ก 2000๊ฐ์ฉ ์์ฑ๋ region ์ด๋ฏธ์ง๋ฅผ CNN Feature map ์์ฑ ํฉ๋๋ค.
- ๊ฐ๊ธฐ ๋ฐ๋ก ๋ ธ๋ ๊ตฌ์ฑ ์์๋ค. Selective search, CNN Feature Extractor, SVM๊ณผ Bounding box regressor๋ก ๊ตฌ์ฑ๋์ด ๋ณต์กํ ํ๋ก์ธ์ค๋ฅผ ๊ฑฐ์ณ์ ํ์ต ๋ฐ Object Detection์ด ๋์ด์ผ ํฉ๋๋ค.
1์ฅ์ ์ด๋ฏธ์ง๋ฅผ Object Detection ํ๋๋ฐ ์ฝ 50์ด๊ฐ ์์๋ฉ๋๋ค.
R-CNN ์ดํ Object Detection ์ฐ๊ตฌ ๋ฐฉํฅ์ฑ
- Deep Learning ๊ธฐ๋ฐ Object Detection ์ฑ๋ฅ์ ์ ์ฆ
- Region Proposal ๊ธฐ๋ฐ ์ฑ๋ฅ ์ ์ฆ - DL ๊ธฐ๋ฐ
- Detection ์ํ ์๊ฐ์ ์ค์ด๊ณ ๋ณต์กํ๊ฒ ๋ถ๋ฆฌ๋ ๊ฐ๋ณ ์ํคํ ์ฒ๋ฅผ ํตํฉ ํ ์ ์๋ ๋ฐฉ์ ์ฐ๊ตฌ์ ๋งค์ง ํด์ผ ํฉ๋๋ค.
'๐ Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CV] Fast R-CNN (Fast Region-based Convolutional Neural Network) (0) | 2024.05.27 |
---|---|
[CV] SPPNet - Spatial Pyramid Pooling Net (0) | 2024.05.25 |
[CV] Object Detection & Segmentation์ ์ํ ํจํค์ง & CUDA ์๊ฐ (0) | 2024.05.20 |
[CV] OpenCV ์์์ฒ๋ฆฌ ๊ฐ์ (0) | 2024.05.19 |
[CV] OpenCV ๊ฐ์ (0) | 2024.05.18 |