VLM (Vision Language Model)์ ๊ณต๋ถํ๋์ค PLLaVA ๋ ผ๋ฌธ์ ์ฝ์ํ ์ ๋ฆฌํ ๋ด์ฉ์ ๊ณต์ ํฉ๋๋ค.
- Paper Link
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning
Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the pr
arxiv.org
PLLaVA์ ์ฃผ์ ๊ฐ๋
PLLaVA๋ ๊ธฐ์กด์ ์ด๋ฏธ์ง-์ธ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ(LLaVA)์ ๋น๋์ค ๋ฐ์ดํฐ์ ๋ง๊ฒ ํจ์จ์ ์ผ๋ก ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ ๋ชจ๋ธ์ ๋๋ค. ๋น๋์ค ๊ด๋ จ ์์ ์ ์ํ ์ฌ์ ํ์ต์ ๋ง๋ํ ์ปดํจํ ๋ฐ ๋ฐ์ดํฐ ์์์ด ํ์ํ๋ฐ, PLLaVA๋ ์ด๋ฐ ์ ์ฝ์ ๊ทน๋ณตํ๊ณ ๋ ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ๋น๋์ค ์ดํด ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฌธ์ ์ ๋ฐ ํด๊ฒฐ ๋ฐฉ์
์ฐ๊ตฌํ์ ๊ธฐ์กด ์ด๋ฏธ์ง-์ธ์ด ๋ชจ๋ธ์ ๋น๋์ค ๋ฐ์ดํฐ์ ์ ์ฉํ ๋ ๋ฐ์ํ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ์ต๋๋ค.
- ํ๋กฌํํธ์ ๋ํ ์ทจ์ฝ์ฑ: ํ์ต๋ ๋ชจ๋ธ์ด ํ๋กฌํํธ ํจํด ๋ณํ์ ๋งค์ฐ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์
- ์ธ์ด ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ์ ํ๊ณ: ์ธ์ด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ ค๋ ๋น๋์ค ์ดํด ์ฑ๋ฅ์ด ํฅ์๋์ง ์์
์ด๋ฌํ ๋ฌธ์ ์ ๊ทผ๋ณธ ์์ธ์ ๋ถ์ํ ๊ฒฐ๊ณผ, ํน์ ์๊ฐ์ ํน์ง ํ ํฐ์ด ๋ฏธ์ธ ์กฐ์ ๊ณผ์ ์์ ๋ค๋ฅธ ํ ํฐ๋ณด๋ค ํ์ ํ ํฐ ๋ ธ๋ฆ(norm)์ ๊ฐ๋ ํ์์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์ด ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ๊ธฐ์กด 4-Frame ๋ฐฉ์์ ๋ ๋ง์ ํ์ต ๋จ๊ณ์ ๋ฐฐํฌ ์ค๋จ ํ๋กฌํํธ์์ ๋ ์งง์ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฐ๋ฉด, PLLaVA๋ ๋ ์ํฉ ๋ชจ๋์์ ์ผ๊ด์ฑ์ ์ ์งํฉ๋๋ค.
์ ๊ทธ๋ฆผ์ n-frame๊ณผ PLLaVA์ norm ๋ถํฌ ๋ฐ ์์ฑ๋ ํ ์คํธ๋ฅผ ๋น๊ตํ ์์์ ๋๋ค. n-frame ์ค์ ์์๋ ๋ ๋ง์ ๋ฐ์ดํฐ ์ํ์ ํ์ตํ ์๋ก dominant tokens(๋์ norm์ ๊ฐ์ง ํ ํฐ๋ค)์ด ์ฆ๊ฐํ๊ณ ์์ฑ๋ ํ ์คํธ์ ํ์ง์ด ์ ํ๋ฉ๋๋ค. ๋ฐ๋ฉด PLLaVA์ norm ๋ถํฌ๋ ๋ค์ํ ํ์ต ๋ฐ์ดํฐ ๋ฐ ํ๋กฌํํธ ์์ ๋ฐ๋ผ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ, ์์ฑ๋ ํ ์คํธ๋ ์ผ๊ด๋ ํ์ง์ ๋ณด์ฌ์ค๋๋ค.
PLLaVA์ ํต์ฌ ํด๊ฒฐ์ฑ : Pooling ์ ๋ต
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด PLLaVA๋ ์๊ฐ ์ฐจ์์ ๋ฐ๋ผ ํน์ง ๋ถํฌ๋ฅผ ๋ถ๋๋ฝ๊ฒ ํ์ฌ ๊ทน๋จ์ ์ธ ํน์ง์ ์ง๋ฐฐ์ ์ธ ์ํฅ์ ์ค์ด๋ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ pooling ์ ๋ต์ ์ ์ํฉ๋๋ค.
PLLaVA์ ํ๋ ์์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ผ๋ก ์๋ํฉ๋๋ค
- ์ฌ์ฉ์๊ฐ ์ ๊ณตํ ๋น๋์ค๋ฅผ ViT-L๊ณผ MM projector๋ฅผ ํตํด ์ฒ๋ฆฌ
- (T, w, h, d) ํํ์ ์๊ฐ์ ํน์ง์ ์ถ์ถ
- ํ๊ท ํ๋ง์ ํตํด ์๊ฐ์ ๋ฐ ๊ณต๊ฐ์ ์ฐจ์์ ํจ๊ณผ์ ์ผ๋ก ์ถ์
- ํ๋ง๋ ํน์ง์ ํํํํ ํ ์ง๋ฌธ ์๋ฒ ๋ฉ๊ณผ ๊ฒฐํฉ
- ์ด๋ฏธ์ง Large Language Model (LLM)์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์๋ต ์์ฑ
- ์ด๋ฏธ์ง LLM์ ๊ฐ์ค์น๋ฅผ ๋น๋์ค ์ํ์์ ํ์ต๋ LoRA ๊ฐ์ค์น์ ๊ฒฐํฉ
Pooling์ ์ํฅ๊ณผ ์ต์ ์ค๊ณ
pooling์ด ์๊ฐ์ (temporal) ์ฐจ์๊ณผ ๊ณต๊ฐ์ (spatial) ์ฐจ์์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์ต๋๋ค.
์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ๊ณต๊ฐ์ ์ฐจ์์ 50% ์ถ์ํด๋ ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋์ง ์์ง๋ง, ์๊ฐ์ ์ฐจ์์์์ ํ๋ง์ ํญ์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ํ์ํค๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ต๋๋ค. ๋ฐ๋ผ์ PLLaVA๋ ๊ณ์ฐ ์ค๋ฒํค๋์ ์ฑ๋ฅ ๊ฐ์ ๊ท ํ์ ๊ณ ๋ คํ์ฌ ๊ณต๊ฐ์ ์ฐจ์์ 12×12๋ก ์ค์ ํ์ต๋๋ค.
Post-Training Optimization
PLLaVA๋ ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ๊ณผ ๊ด๋ จ๋ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Post-Training Optimization ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
์ด ๋ฐฉ๋ฒ์ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋ Language Model(LLM)๊ณผ ๊ธฐ๋ณธ ์ด๋ฏธ์ง MLLM์ ์๋ LLM์ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, Post Optimization ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ ์ ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ
PLLaVA๋ ๋ค์ํ ๋น๋์ค ์ดํด ๋ฒค์น๋งํฌ์์ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ๊ทธ๋ฆผ์ ๋ค์ด์ํ๋ง ๋น์จ์ด MVBench์ VCG Score ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ ๋ฒค์น๋งํฌ ๊ฐ์ ๋๋ ทํ ์ฐจ์ด๊ฐ ์์ผ๋ฉฐ, ์ด์์ ์ธ ์กฐํฉ ๋น์จ์ ํ์คํฌ์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค. PLLaVA์ ์๋ง ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ช ๊ฐ์ง ์ฌ๋ก ์ฐ๊ตฌ๋ ์์ต๋๋ค:
์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, PLLaVA 34B๋ IG-VLM๊ณผ ๋น๊ตํ์ ๋ ๋น๋์ค์ ๋ํ ๋ ๋ง์ ์ธ๋ถ ์ฌํญ์ ์ธ์ํ๊ณ , ๋น๋์ค ๋ด์ฉ๋ ๋ ์ ํํ๊ฒ ์ดํดํฉ๋๋ค.
PLLaVA์ ์๋ง ์ฌ์์ฑ(recaption) ๋ฅ๋ ฅ๋ ์ธ์์ ์ ๋๋ค. Open-Sora GPT-4 ํ์ดํ๋ผ์ธ๊ณผ ๋น๊ตํ์ ๋, PLLaVA๋ ๋ ๋์ ์๋ง ์ธ๋ถ ์ฌํญ์ ํฌ์ฐฉํ๋ฉฐ, ๋น๋์ค ๋ด์ ์์ง์ ์ ๋ณด๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์กฐํฉ๋๋ค.
์ฃผ์ ์ฑ๊ณผ
PLLaVA๋ ๋ค์๊ณผ ๊ฐ์ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค:
- Video ChatGPT ๋ฒค์น๋งํฌ์์ 5๊ฐ์ง ํ๊ฐ๋ ์ฐจ์์์ ํ๊ท 3.48์ ์ ๊ธฐ๋กํ์ฌ, ์ด์ ์ state-of-the-art ๊ฒฐ๊ณผ๋ณด๋ค 9% ํฅ์
- MVBench์์ 20๊ฐ ํ์ ์์ ์์ ํ๊ท 58.1%์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ๋ณด๋ค 14.5% ํฅ์
- VideoQA์์ MSVD, MSRVTT, ActivityNet, TGIF์ ์ ํ๋์ ์ ์ ์งํ์์ ๊ธฐ์กด ๋ชจ๋ ๋ฐฉ๋ฒ ๋ฅ๊ฐ
๊ฒฐ๋ก
PLLaVA๋ ์ด๋ฏธ์ง-์ธ์ด ๋ชจ๋ธ์ ๋น๋์ค๋ก ํ์ฅํ๊ธฐ ์ํ ๊ฐ๋จํ๋ฉด์๋ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ ๋ง์ ๋ฐ์ดํฐ์ ๋ ํฐ ์ธ์ด ๋ชจ๋ธ๋ก ํ๋ จ์ ํ์ฅํ๋ ๊ฒ์ ์ฉ์ดํ๊ฒ ๋ง๋ค๊ณ , ๊ณผํ๋ จ๊ณผ ์ฑ๋ฅ ํฌํ์ ๋ํด ๋ ์ ์ ์ดํ ์ ์๋ ์ ๋ต์ ์ ๊ณตํฉ๋๋ค.
PLLaVA์ ์ธ๋ถ์ ์ธ ์๋ง ์ ๊ณต ๋ฅ๋ ฅ์ ๋ฐํ์ ๋ถ์ ์๋น์ค์๋ ๋์์ด ๋ ์ ์์๊ฒ์ด๋ผ๊ณ ์๊ฐ.
ํนํ ๋ฐํ ์์์์ ๋ฐํ์์ ํ๋, ์ ์ค์ฒ, ํ์ ๋ฑ์ ์์ธํ๊ฒ ๋ถ์ํ๊ณ ์ค๋ช ํ ์ ์๋ ๋ฅ๋ ฅ์ ๋งค๋ ฅ์ .
'๐ฆ kakaotech' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - Video-LLaMA Paper Review (0) | 2025.04.07 |
---|---|
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - Vision Language Model Research (0) | 2025.04.07 |