Q. VLM์ ์ ์ฉํด์ ๋ฐํ์์ ํ๋์ ํ์ง & ๋ถ์ โ Prompt๋ก ํน์ง์ด ๋์ค๋ ค๋ฉด?
1. VLM์ผ๋ก Object Detection์ ํ ์ฌ๋ ๋ฅผ ์์์ผ ํ๋ค.
2. VLM์ผ๋ก ์ต๋ ๋ช๋ถ๊น์ง์ ์์ ๋ถ์์ด ๊ฐ๋ฅํ๊ฐ? (max 1์๊ฐ)
3. ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธ์ด ์๋๊ฐ? Fine-tuning๋ฐ ๋ชจ๋ธ ์ฌ์ฉ๋ฒ์?
VLM (Vision Language Model)์ ๊ณต๋ถํ๋์ค Video-LLaMA ๋ ผ๋ฌธ์ ์ฝ์ด์ ์ ๋ฆฌํ ๋ด์ฉ์ ๊ณต์ ํฉ๋๋ค.
- Paper Link
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
We present Video-LLaMA a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual and
arxiv.org
Video-LLaMA๋?
Video-LLaMA๋ BLIP-2์ MiniGPT-4๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ ๋ค์ค ๋ชจ๋ฌ ํ๋ ์์ํฌ๋ก,
๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๋น๋์ค์ ์๊ฐ์ ์ฝํ ์ธ ์ ์ค๋์ค ์ฝํ ์ธ ๋ฅผ ๋ชจ๋ ์ดํดํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด ๋ชจ๋ธ์ ์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋น์ -์ธ์ด(VL) ๋ถ๊ธฐ์ ์ค๋์ค-์ธ์ด(AL) ๋ถ๊ธฐ๋ฅผ ํฌํจํ ํตํฉ ์ํคํ ์ฒ
- ๋ํ ์ธ์ด ๋ชจ๋ธ์ด ์์ฒญ๊ฐ ์ฝํ ์ธ ๋ฅผ ์ข ํฉ์ ์ผ๋ก ์ดํดํ ์ ์๋ ๋ฅ๋ ฅ
- ๋น๋์ค ํ๋ ์๊ณผ ์ค๋์ค ์คํธ๋ฆผ์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ธฐ๋ฅ
์ฃผ์ ์ฐ๊ตฌ ๊ณผ์ ์ ํด๊ฒฐ์ฑ
Video-LLaMA๋ ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋์์ต๋๋ค:
- ์๊ฐ ์ฅ๋ฉด์์์ ์๊ฐ ๋ณํ ํฌ์ฐฉ
- ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ๋น๋์ค ์ธ์ฝ๋์ ์กฐํฉํ๋ Video Q-former๋ฅผ ์ ์
- ๋น๋์ค-ํ ์คํธ ์์ฑ ์์ ์ ๋์ ํ์ฌ ๋น๋์ค์ ์ธ์ด ๊ฐ์ ๋์์ ํ์ต
- ์ค๋์ค-๋น์ฃผ์ผ ์ ํธ ํตํฉ
- ImageBind๋ผ๋ ์ฌ๋ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ ๋ ฌํ๋ ๋ฒ์ฉ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ค๋์ค ์ธ์ฝ๋๋ก ์ฌ์ฉ
- Audio Q-former๋ฅผ ๋์ ํ์ฌ ์ธ์ด ๋ชจ๋ธ ๋ชจ๋์ ์ ํฉํ ์ค๋์ค ์ฟผ๋ฆฌ ์๋ฒ ๋ฉ์ ํ์ต

์ํคํ ์ฒ ๊ตฌ์ฑ
Model Repo
GitHub - DAMO-NLP-SG/Video-LLaMA: [EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Unde
[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding - DAMO-NLP-SG/Video-LLaMA
github.com

1. Vision-Language Branch
๋น์ -์ธ์ด ๋ถ๊ธฐ๋ LLM์ด ์๊ฐ์ ์ ๋ ฅ์ ์ดํดํ ์ ์๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ๋ค์ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจ.
- ๋๊ฒฐ๋ ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ์ธ์ฝ๋: ๋น๋์ค ํ๋ ์์์ ํน์ง์ ์ถ์ถ
- Position Embedding Layer: ๋น๋์ค ํ๋ ์์ ์๊ฐ ์ ๋ณด๋ฅผ ์ฃผ์
- Video Q-former: ํ๋ ์ ์์ค์ ํํ์ ์งํฉ
- Linear Layer: ์ถ๋ ฅ๋ ๋น๋์ค ํํ์ LLM์ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ๋์ผํ ์ฐจ์์ผ๋ก ํฌ์
2. Audio-Language Branch
์ค๋์ค-์ธ์ด ๋ถ๊ธฐ๋ ๋น๋์ค์ ์ฒญ๊ฐ์ ์ฝํ ์ธ ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, ๋ค์ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจ.
- ์ฌ์ ํ์ต๋ ์ค๋์ค ์ธ์ฝ๋(ImageBind): ์ค๋์ค ์ธ๊ทธ๋จผํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ํน์ง ๊ณ์ฐ
- Position Embedding Layer: ์ค๋์ค ์ธ๊ทธ๋จผํธ์ ์๊ฐ ์ ๋ณด ์ฃผ์
- Audio Q-Former: ์ค๋์ค ์ธ๊ทธ๋จผํธ์ ํน์ง์ ์ตํฉ
- Linear Layer: ์ค๋์ค ํํ์ LLM์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋งคํ
ํ์ต ๋ฐฉ๋ฒ
๋ค์ค ๋ธ๋์น ํฌ๋ก์ค ๋ชจ๋ฌ ํ์ต
Video-LLaMA๋ Vision-Language Branch์ Audio-Language Branch๋ฅผ ๊ฐ๊ฐ ๋ฐ๋ก ํ์ต์ํต๋๋ค.
- Vision-Language Branch ํ์ต
- Webvid-2M(์คํก ์์ ์ฌ์ดํธ์ ํ ์คํธ ์ค๋ช ์ด ํฌํจ๋ ์งง์ ๋น๋์ค) ๋ฐ์ดํฐ์ ์ฌ์ฉ
- CC595k(์ด๋ฏธ์ง ์บก์ ๋ฐ์ดํฐ์ ) ํ์ฉ
- ๋น๋์ค-ํ ์คํธ ์์ฑ ์์ ์ ์ฉ์ผ๋ก LLM์ด ๋น๋์ค์ ๋ํ ํ ์คํธ ์ค๋ช ์์ฑ
- MiniGPT-4, LLaVA, Video-Chat์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ช ๋ น ๋ฐ๋ฅด๊ธฐ ๋ฅ๋ ฅ ๋ฏธ์ธ ์กฐ์
- Audio-Language Branch ํ์ต
- ์ค๋์ค-ํ ์คํธ ๋ฐ์ดํฐ์ ํฌ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฐํ ์ ๋ต ์ฌ์ฉ
- ImageBind๊ฐ ์ ๊ณตํ๋ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ํ์ฉํ์ฌ ์๊ฐ-ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ต
- ์ด๋ฅผ ํตํด ์ค๋์ค ๋ฐ์ดํฐ๋ก ๋ช ์์ ํ์ต ์์ด๋ ์ค๋์ค ์ดํด ๋ฅ๋ ฅ ํ๋ณด
Video-LLaMA์ ์ฃผ์ ๋ฅ๋ ฅ
๋ค์ํ ์คํ์ ํตํด Video-LLaMA๋ ๋ค์๊ณผ ๊ฐ์ ์ธ์์ ์ธ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.

- ์ค๋์ค-๋น์ฃผ์ผ ํตํฉ ์ธ์ ๋ฅ๋ ฅ
- ๋น๋์ค์ ์๊ฐ์ ์ฝํ ์ธ ์ ์ฒญ๊ฐ์ ์ฝํ ์ธ ๋ฅผ ๋์์ ์ดํด
- ์๊ฐ ๊ด๋ จ ์ง๋ฌธ๊ณผ ์ค๋์ค ๊ด๋ จ ์ง๋ฌธ์ ๋ชจ๋ ์ ํํ๊ฒ ์๋ต
- ๋น๋์ค์ ์๊ฐ์ ๋์ ๋ณํ๋ฅผ ํฌ์ฐฉํ๋ ๋ฅ๋ ฅ
- ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ํ๋์ด๋ ์์ง์์ ์ธ์ํ๊ณ ์ค๋ช
- ์ ์ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๊ณ ์ดํดํ๋ ๋ฅ๋ ฅ
- ์ด๋ฏธ์ง์ ์ฃผ์ ๋ด์ฉ์ ์ ํํ๊ฒ ์ค๋ช
- "๋น์ ์์ "๊ณผ ๊ฐ์ ์ถ์์ ๊ฐ๋ ์ ์ดํดํ๊ณ ์ ์ฉ
- ์ผ๋ฐ ์์ ๊ฐ๋
์ ์ธ์ํ๋ ๋ฅ๋ ฅ
- ์ ๋ช ํ ๋๋๋งํฌ์ ์ธ๋ฌผ๋ค์ ์ธ์
- ์์์ ์ธ ์ง๋ฌธ์ ์ ์ ํ๊ฒ ์๋ต
ํ๊ณ์
Video-LLaMA๋ ๋ค์ค ๋ชจ๋ฌ ์ดํด์ ํฐ ์ง์ ์ ๋ณด์์ง๋ง, ๋ช ๊ฐ์ง ํ๊ณ๋ ์์ต๋๋ค.
- ์ ํ๋ ์ธ์ ๋ฅ๋ ฅ: ํ์ต ๋ฐ์ดํฐ์ ์ ํ์ง๊ณผ ๊ท๋ชจ์ ์ํด ์ ํ๋จ
- ๊ธด ๋น๋์ค ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ ํ: ์ํ๋ TV ์ผ์ ๊ฐ์ ๊ธด ๋น๋์ค ์ฒ๋ฆฌ์ ํ๊ณ๊ฐ ์์
- ํ๊ฐ ๋ฌธ์ : ๊ธฐ๋ณธ LLM์์ ์์๋ฐ์ ํ๊ฐ ๋ฌธ์ ๊ฐ ์กด์ฌํจ
์์ฌ์
Video-LLaMA ๋ชจ๋ธ์ด ์ ํฌ Product ๊ฐ๋ฐ์ ์ฃผ๋ ์์ฌ์ ์ ์ด๋ ๊ฒ ์๊ฐํ์ต๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ ๊ฐ๋ฅ์ฑ: ๋ฐํ์์ ์๊ฐ์ ์์(ํ์ , ์ ์ค์ฒ, ์์ธ)์ ์ฒญ๊ฐ์ ์์(์์ฑ, ์ด์กฐ, ์๋)๋ฅผ ๋์์ ๋ถ์ํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค
- ์๊ฐ์ ๋ณํ ํฌ์ฐฉ: ๋ฐํ ๊ณผ์ ์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ(์: ์ ์ค์ฒ์ ๋ณํ, ๋ชฉ์๋ฆฌ ํค์ ๋ณํ)๋ฅผ ๊ฐ์งํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์
- ๋ชจ๋ํ๋ ์ํคํ ์ฒ: ๋น์ -์ธ์ด ๋ถ๊ธฐ์ ์ค๋์ค-์ธ์ด ๋ถ๊ธฐ๋ฅผ ๋ณ๋๋ก ์ค๊ณํ๊ณ ํ์ต์ํจ ํ ํตํฉํ๋ ๋ฐฉ์์ ๋ฐํ์ ๋ถ์ ์์คํ ์ ๋ชจ๋์ ๊ฐ๋ฐ์ ์ ์ฉ ๊ฐ๋ฅ
- ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ ์ ๋ต: ์ค๋์ค-ํ ์คํธ ๋ฐ์ดํฐ์ ํฌ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉํ ์ฐํ ์ ๋ต์ ๋ฐํ ํผ๋๋ฐฑ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์์ ์ฐธ๊ณ ํ ๋งํจ.
'๐ฆ kakaotech' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - PLLaVA Paper Review (0) | 2025.04.07 |
---|---|
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - Vision Language Model Research (0) | 2025.04.07 |