
Pitching Project๋ฅผ PM & AI Tech ๋ด๋น์๋ก ๊ฐ๋ฐํ์ง ๋ช๋ฌ์ด ์ง๋ฌ์ง๋ง, ๋ค์ ํ๋ฒ ์ ๋ฆฌํ๋ ๊ฐ๋ ์ผ๋ก ์ด๋ ํ ๋ด์ฉ์ ๊ฐ๋ฐํ๋์ง ์ฌ๋ ค๋ณด๋ ค๊ณ ํฉ๋๋ค.
- Pitching Github Organization
Pitching-kakaotech
Pitching์ "๋ชจ๋๊ฐ ํธํ๊ฒ ์ํตํ๊ณ , ์์ ์๊ฒ ๋งํ๋ฉฐ ์ฐ๊ฒฐ๋ ์ธ์์ ๋ง๋ค์." ๋ผ๋ ์๊ฐ์ผ๋ก ํ์ํ ํ๋ซํผ์ ๋๋ค. - Pitching-kakaotech
github.com
ํ์์ AI๊ธฐ์ ์ ํ์ฉํ ์ค์๊ฐ ๋ฐํ ํผ๋๋ฐฑ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ํ๋ก๋ํธ๋ฅผ ๋ง๋ค์ด๋ณด์๊ณ ์์ด๋์ด๊ฐ ๋์์ ๊ฐ๋ฐ์ ํ ๋,
์ฃผ์ ์ MVP & ์๊ตฌ์ฌํญ ๋ช
์ธ์(SRS)๋ฅผ ์ ์ํํ, ๋ด์ฉ์ ํ๋ฒ ์ ๋ฆฌํด ๋ณด์์ต๋๋ค.
๊ธฐ๋ฅ ์ฐ์ ์์ ์ค์ : ์ฐ์ ์์๋ "P0", "P1", "P2"์ผ๋ก ๊ตฌ๋ถ๋๋ฉฐ, ์ฌ์ฉ์ ๊ฐ์น, ๊ธฐ์ ์ ๋์ด๋, ๊ฐ๋ฐ ์๊ฐ ๋ฑ์ ๊ณ ๋ คํ์ฌ ๊ฒฐ์
์ฐ์ ์์ | ๊ธฐ๋ฅ | ์ค๋ช |
P0 - AI | ๋ฐ์ดํฐ ์์ง ๋ฐ AI ๋ชจ๋ธ ๊ฐ๋ฐ | ํ์ํ ๋ฐ์ดํฐ ํ๋ณด ๋ฐ AI ๋ชจ๋ธ ํ์ต |
P0 - AI | ์์ ์ฒ๋ฆฌ, ํ์ (์จ๋ผ์ธ) | ์์ ์ฒ๋ฆฌ, ํ์ ์ ํตํ ๋ฐํ ํผ๋๋ฐฑ ์ ๊ณต |
P0 - AI | ์์ฑ | ๋ฐ์ ์ ํ๋, ์ต์, ์๋, ์๊ธฐ ์ฌ๋ถ ๋ฑ์ ๋ถ์ํ์ฌ ํผ๋๋ฐฑ ์ ๊ณต |
P1 - AI | ์ ์ค์ฒ (์คํ๋ผ์ธ) | ์ ์ค์ฒ๋ฅผ ํตํ ๋ฐํ ํผ๋๋ฐฑ ์ ๊ณต |
P0 - FS | ๊ธฐ๋ณธ ๋ก๊ทธ์ธ | ๊ธฐ๋ณธ ๋ก๊ทธ์ธ, ํ์๊ฐ์ |
P1 - FS | ๊ฐํธ ๋ก๊ทธ์ธ | OAuth2, JWT ๊ธฐ๋ฅ |
P1 - FS | ๋ง์ดํ์ด์ง | ํ๋กํ ์ฌ์ง, ์ ๋ณด ๋ณ๊ฒฝ |
P0 - FS | ํ์ํ์ ๊ธฐ๋ฅ ๊ตฌํ | ์ค์๊ฐ ํ์ํ์๋ฅผ ํตํ ๋ฐํ ์ฐ์ต ๊ธฐ๋ฅ ์ ๊ณต |
P1 - FS | ํ๋ฉด๊ณต์ | ์ค์๊ฐ ํ์ ํ์์์ ํ๋ฉด ๊ณต์ |
P2 - FS | ๋ฐํ ๋ ธํ์ฐ ๊ณต์ ์ปค๋ฎค๋ํฐ ๊ธฐ๋ฅ | ์ฌ์ฉ์ ๊ฐ ๋ฐํ ํ๊ณผ ๋ ธํ์ฐ๋ฅผ ๊ณต์ ํ ์ ์๋ ์ปค๋ฎค๋ํฐ ๊ธฐ๋ฅ |
P0 - FS | ํ๋ฉด ๋ นํ, ์์ฑ ๋ นํ | ๋ฐํ ํผ๋๋ฐฑ์ ์ํ ํ๋ฉด ๋ นํ ๋ฐ ์์ฑ ๋ นํ |
P0 - FS | AI ํผ๋๋ฐฑ ์์ฒญ | ๋ นํ๋ ์์(์์ฑ)์ AI ์๋ฒ์ ํผ๋๋ฐฑ ์์ฒญ |
P0 - FS | ์ฑํ ๊ธฐ๋ฅ ๊ตฌํ | 1:1 ๋ฐ ๊ทธ๋ฃน ์ฑํ , ์ฑํ ๋ฐฉ ์์ฑ ๊ธฐ๋ฅ ์ ๊ณต |
P1 - FS | ์ฑํ ๋ถํ ํ ์คํธ | JMeter ๋ฑ์ผ๋ก ํ ์คํธํ๋ฉฐ ๊ฐ์ |
P2 - FS | ์๋ฆผ ์๋น์ค | ์ฑํ ์๋ ์๋น์ค ๊ธฐ๋ฅ |
P3 - FS | ์ปค๋ฎค๋ํฐ | ์ปค๋ฎค๋ํฐ ์๋น์ค ๊ธฐ๋ฅ |
P4 - FS | ์ฑํ ๊ด๋ จ ๊ธฐ๋ฅ | ํฌํ, ์ด๋ชจ์ง, ๋ต์ฅ ๋ฑ ์ฑํ ์์ ํธ๋ฆฌํ ๊ธฐ๋ฅ |
P0 - Cloud | ๋ฐฐํฌ & ์๋ฒ ๊ตฌ์ถ & CI/CD | AWS, Docker, k8s, Jenkins, ArgoCD, Ansible, Terraform |
P1 - Cloud | ๋ฌด์ค๋จ ๋ฐฐํฌ | BlueGreen |
P1 - Cloud | ๋ชจ๋ํฐ๋ง | Grafana, Prometheus |
P2 - Cloud | Terraform ๋ชจ๋ํ | |
P2 - Cloud | MSA | ๋ถ์ฐ ์๋น์ค ์ํคํ ์ฒ (์ฌ์ ๊ฐ ๋๋ฉด ์งํ) |
์๊ตฌ ์ฌํญ์ ์ ์ํํ, ์ฒซ ํผ๋๋ฐฑ๋ ๊ฐ๋ฐ ์ ์ฒด ์ฃผ์ ๊ฐ ์์ฑํ AI๋ฅผ ํ์ฉํด์ผ ํ๋ค๋ ๋ฌธ์ ๋ ์์๊ณ , Cloud Team์์ CV ๋ชจ๋ธ์ ํ์ตํ ๋ ํ์ํ GPU๋ฅผ ์ฌ์ฉํ ์ ์๋ค๋ ์ด์๊ฐ ์กด์ฌํจ์ ์๊ฒ๋ํ, ์ต๋ํ GPU๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๋ฆฌ์์ค๋ฅผ ์ต์ํ์ผ๋ก ์ฌ์ฉํด์ AI Model์ ์๋นํ๊ธฐ ์ํด ๊ณ ๋ฏผ์ ํ์ต๋๋ค.
์ด๋, VLM (Vision-Language-Model)์ด ์๋ค๋๊ฒ์ ์๊ฒ ๋์๊ณ , VLM์ ๊ดํ์ฌ ํ๋ฒ Research๋ฅผ ์งํํด ๋ณด๊ธฐ๋ก ํ์ต๋๋ค.
VLM(Vision-Language Models)์ ํ์ฉํ ๋ฐํ์ ๋ถ์ ์๋น์ค ๊ฐ๋ฐ
VLM ๋ชจ๋ธ ํํฉ ๋ฐ ํน์ง
์ฒ์์๋ ์ด๋ค ๋ชจ๋ธ์ ํ์ฉํด์ผ ํ ์ง ๋ง๋งํ๋๋ฐ์, ๋ฆฌ์์น๋ฅผ ํตํด ๋ฐ๊ฒฌํ ์ฃผ์ VLM ๋ชจ๋ธ๋ค์ ํน์ง์ ๊ณต์ ํฉ๋๋ค.
1. Video-LLaMA
GitHub - DAMO-NLP-SG/Video-LLaMA: [EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Unde
[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding - DAMO-NLP-SG/Video-LLaMA
github.com
์ ๊ฐ ์ฒ์ ์ดํด๋ณธ ๊ฒ์ Video-LLaMA์์ต๋๋ค. ์ด ๋ชจ๋ธ์ BLIP-2์ MiniGPT-4๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ ๋ค์ค ๋ชจ๋ฌ ํ๋ ์์ํฌ์ธ๋ฐ์, ํต์ฌ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋น์ -์ธ์ด(VL) ๋ถ๊ธฐ์ ์ค๋์ค-์ธ์ด(AL) ๋ถ๊ธฐ๋ฅผ ํฌํจํ ํตํฉ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ถ๊ณ ์์ด์
- ๋ํ ์ธ์ด ๋ชจ๋ธ์ด ์์ฒญ๊ฐ ์ฝํ ์ธ ๋ฅผ ์ข ํฉ์ ์ผ๋ก ์ดํดํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค
- ๋น๋์ค ํ๋ ์๊ณผ ์ค๋์ค ์คํธ๋ฆผ์ ๋์์ ์ฒ๋ฆฌํ ์ ์์ด์
2. Video-LLaVA
GitHub - PKU-YuanGroup/Video-LLaVA: ใEMNLP 2024๐ฅใVideo-LLaVA: Learning United Visual Representation by Alignment Before P
ใEMNLP 2024๐ฅใVideo-LLaVA: Learning United Visual Representation by Alignment Before Projection - PKU-YuanGroup/Video-LLaVA
github.com
๋ ๋ฒ์งธ๋ก ์ดํด๋ณธ Video-LLaVA๋ ์ด๋ฏธ์ง์ ๋น๋์ค ๊ฐ์ ์ํธ์์ฉ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ์ธ๋ฐ์, ์ ๋ ํนํ ์ด ๋ชจ๋ธ์ ๋ค์ ํน์ง๋ค์ด ์ธ์์ ์ด์์ต๋๋ค:
- ์ด๋ฏธ์ง-์ธ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋น๋์ค ๋ฐ์ดํฐ๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ฅํ์ด์
- ๋น๋์ค์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ํธ ๋ณด์์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉ์์ด ํฅ๋ฏธ๋ก์ ์ต๋๋ค
- ๋น๋์ค ๊ด๋ จ ์์ ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ด์
- ๋น๋์ค ํ๋ ์ ๊ฐ์ ์๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์ดํดํฉ๋๋ค
์ ์๊ฐ์๋ ์ด ๋ชจ๋ธ์ด ๋ฐํ์์ ์ ์ค์ฒ๋ ํ์ ๋ณํ์ ๊ฐ์ ์๊ฐ์ ์์๋ฅผ ๋ถ์ํ๋ ๋ฐ ํจ๊ณผ์ ์ผ ๊ฒ ๊ฐ์์ผ๋,
์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ค๋ฉด? ํผ๋๋ฐฑ ์ ๊ณต์ Question - Answering ๋ฐฉ์์ผ๋ก ๋ณ๊ฒฝํด์ผํ๋ค๋ ๋ฌธ์ ๊ฐ ์์๊ณ , ๊ทธ๊ฒ๊น์ง ํ๋ฉด ์ํฉ์ ์์ฌ์ผ๊ฑฐ ๊ฐ์์ต๋๋ค.
3. Video-ChatGPT
GitHub - mbzuai-oryx/Video-ChatGPT: [ACL 2024 ๐ฅ] Video-ChatGPT is a video conversation model capable of generating meaningful
[ACL 2024 ๐ฅ] Video-ChatGPT is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted fo...
github.com
์ธ ๋ฒ์งธ๋ก ์ดํด๋ณธ Video-ChatGPT๋ ๋น๋์ค์ ๊ด๋ จ๋ ์๋ฏธ ์๋ ๋ํ๋ฅผ ์์ฑํ ์ ์๋ ๋น๋์ค ๋ํ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ํน์ง์:
- ACL 2024์ ๋ฐํ๋ ์ต์ ๋ชจ๋ธ์ด๋ผ๋ ์ ์ด ๋์ ๋์์ต๋๋ค
- ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฅ๊ณผ, ์ฌ์ ํ๋ จ๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ์ด์
- 100,000๊ฐ์ ๋น๋์ค-์ง์นจ ์์ผ๋ก ํ๋ จ๋์๋ค๊ณ ํด์
- ์๊ณต๊ฐ์ ๋น๋์ค ํํ์ ์ํ ์๊ฐ ์ธ์ฝ๋๊ฐ ํฌํจ๋์ด ์์ต๋๋ค
- ๋น๋์ค ๊ธฐ๋ฐ ๋ํ ๋ชจ๋ธ์ ์ํ '์ ๋์ ํ๊ฐ ๋ฒค์น๋งํน'์ ๋์ ํ์ด์
4. PLLaVA
PLLaVA, Vision-Language ๋ชจ๋ธ์ธ LLaVA๋ฅผ Video๋ก ํ์ฅํ๋ ํ๋ก์ ํธ
PLLaVA, Vision-Language ๋ชจ๋ธ์ธ LLaVA๋ฅผ Video๋ก ํ์ฅํ๋ ํ๋ก์ ํธ ์๊ฐ ์ต๊ทผ ๋ค์ด ๋น๋์ค์ ๊ด๋ จ๋ ์๊ฐ-์ธ์ด ํ์ต์ด ๋ง์ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. ํนํ, PLLaVA (Pooling LLaVA) ํ๋ก์ ํธ๋ ๊ธฐ์กด ์ด๋ฏธ์ง-์ธ์ด
discuss.pytorch.kr
๋ง์ง๋ง์ผ๋ก ์ดํด๋ณธ PLLaVA๋ ๊ธฐ์กด์ ์ด๋ฏธ์ง-์ธ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋น๋์ค ๋ฐ์ดํฐ๋ก ํ์ฅํ ๋ชจ๋ธ์ธ๋ฐ์. ์ ๊ฐ ์ฃผ๋ชฉํ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๊ฐ๋จํ ํ๋ง ์ ๋ต์ ์ฌ์ฉํ์ฌ ์๊ฐ์ ์ฐจ์์ ํํํํ๋ ๋ฐฉ์์ด ํฅ๋ฏธ๋ก์ ์ด์
- ๋น๋์ค ํ๋ ์์์ ์ง๋ฐฐ์ ์ธ ํ ํฐ๋ค์ ์ํฅ์ ์ค์ฌ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค๊ณ ํฉ๋๋ค
- ์ปดํจํฐ ๋น์ ๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ์ ๊ฒฝ๊ณ๋ฅผ ํ๋ฌผ์ด ๋์ฑ ์ ๊ตํ ๋น๋์ค ๋ด์ฉ ์ดํด๊ฐ ๊ฐ๋ฅํด์
- ์ฅ์๊ฐ ๋น๋์ค ์ฒ๋ฆฌ์ ํจ์จ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค
๋ฆฌ์์นํ ์๋น์ค ๊ฐ๋ฐ ๋ฐฉํฅ
๋ฆฌ์์น๋ฅผ ์งํํ๋ฉด์ ์๋น์ค ๊ฐ๋ฐ ๋ฐฉํฅ๋ ์ข ๋ ๊ตฌ์ฒดํํ์ต๋๋ค.
- ๋ชฉ์ : Vision-Language ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ๋ฐํ์์ ๋น๋์ค๋ฅผ ๋ถ์ํ๊ณ , ๋ฐํ ๋ด์ฉ๊ณผ ์ ๋ฌ ๋ฐฉ์์ ๋ํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๊ฒ์ ๋๋ค
- ๊ธฐ๋ฅ: ์์ฑ ์ธ์์ผ๋ก ๋ฐํ ๋ด์ฉ์ ํ ์คํธ๋ก ๋ณํํ๊ณ , ๋น๋์ค ๋ถ์์ ํตํด ๋น์ธ์ด์ ์์(ํ์ , ์ ์ค์ฒ ๋ฑ)๋ฅผ ํ๊ฐํ ๊ณํ์ด์์
๊ธฐ์ ๊ตฌํ ๋ฐฉ๋ฒ
์๋น์ค ๊ฐ๋ฐ์ ์ํ ์ ์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณํํ๊ณ ์์ต๋๋ค:
- ์๊ตฌ ์ฌํญ ๋ถ์: ๋จผ์ ์๋น์ค์์ ์ ๊ณตํ ํผ๋๋ฐฑ์ ์ข ๋ฅ์ ๊น์ด๋ฅผ ๊ฒฐ์ ํ ์์ ์ ๋๋ค
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ:
- ๋ฐํ ์์๊ณผ ํด๋น ํผ๋๋ฐฑ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์์ด์
- ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ฅผ ์ํ ์กฐ์น๋ ํจ๊ป ์ํ ์ค์ ๋๋ค
- ๋ชจ๋ธ ์ ํ ๋ฐ ๊ฐ๋ฐ:
- ์์ฑ ์ธ์ ๋ชจ๋ธ: Whisper, DeepSpeech ๋ฑ ๊ฒํ ์ค์ด๋ฉฐ, ์ด๋ค ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ ํฉํ ์ง ํ ์คํธ ์ค์ ๋๋ค
- ๋น๋์ค ๋ถ์ ๋ชจ๋ธ: ์์์ ์๊ฐํ VLM ๋ชจ๋ธ ์ค ์ ํฌ ์๋น์ค์ ๊ฐ์ฅ ์ ํฉํ ๊ฒ์ ์ ์ ์ค์ด์์
- ํ ์คํธ ๋ถ์: NLP ๊ธฐ์ ๋ก ์ ์ฌ๋ ํ ์คํธ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ๋ ์ฐ๊ตฌ ์ค์ ๋๋ค
- ์์คํ
ํตํฉ:
- ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์คํธ๋ฆฌ๋ฐ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ด ํ์ํด์
- ๊ฐ ๋ชจ๋ ๊ฐ์ ๋ฐ์ดํฐ ํ๋ฆ ์ต์ ํ๋ ์ค์ํ ๊ณผ์ ์ ๋๋ค
- ์ฑ๋ฅ ์ต์ ํ:
- ๋ชจ๋ธ ๊ฒฝ๋ํ ๋ฐ ํ๋์จ์ด ๊ฐ์ ํ์ฉ ๋ฐฉ์์ ๊ณ ๋ฏผ ์ค์ด์์
- ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฐ ๋น๋๊ธฐ ์ฒ๋ฆฌ๋ก ์ง์ฐ ์๊ฐ์ ์ต์ํํ๋ ๊ฒ์ด ์ค์ํ ๊ฒ ๊ฐ์ต๋๋ค.
๊ธฐ์ ์ ๊ณผ์ ์ ํด๊ฒฐ ๋ฐฉ์
๋ฆฌ์์น๋ฅผ ์งํํ๋ฉฐ ํ์ฌ ๊ธฐ์ ์์ค๊ณผ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค๋ ํ์ ํ์ต๋๋ค.
ํ์ฌ ๊ธฐ์ ์์ค
- OpenAI์ Whisper, Google's Speech-to-Text ๋ฑ ๊ณ ํ์ง์ ์ค์๊ฐ ์์ฑ ์ธ์ ๋ชจ๋ธ์ด ์ด๋ฏธ ์กด์ฌํฉ๋๋ค
- CLIP, ViLT ๋ฑ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ๋ ๊ณ์ ๋ฐ์ ํ๊ณ ์์ด์
- OpenPose ๋ฑ์ผ๋ก ์์ธ์ ์ ์ค์ฒ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ธ์ํ๋ ๊ฒ๋ ๊ฐ๋ฅํด์ก์ต๋๋ค
- ์ ์ฌ๋ ํ ์คํธ๋ฅผ ๋ถ์ํ์ฌ ์ธ์ด ์ฌ์ฉ ํจํด, ๊ฐ์ , ์ด์กฐ ๋ฑ์ ํ์ ํ๋ NLP ๊ธฐ์ ๋ ๊ฝค ์ฑ์๋จ๊ณ์ ์์ด์
ํด๊ฒฐํด์ผ ํ ๊ธฐ์ ์ ๊ณผ์
์ ๊ฐ ํ์ ํ ์ฃผ์ ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- VLM์ผ๋ก Object Detection ์ต์ ํ
- ๋ฐํ์์ ํ๋์ ํ์งํ๊ณ ๋ถ์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ด ํ์ํฉ๋๋ค
- Prompt ๊ธฐ๋ฐ ํน์ง ์ถ์ถ ๋ฐฉ์์ ๋ํ ์ฐ๊ตฌ๊ฐ ๋ ํ์ํด์
- ์ฅ์๊ฐ ์์ ๋ถ์ ๊ฐ๋ฅ์ฑ
- VLM์ผ๋ก ์ต๋ ๋ช ๋ถ๊น์ง์ ์์ ๋ถ์์ด ๊ฐ๋ฅํ์ง ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค
- ๋ชฉํ๋ ์ต๋ 1์๊ฐ ๋ฐํ ์์์ ๋ถ์ํ ์ ์๋ ์์คํ ์ ๊ตฌ์ถํ๋ ๊ฒ์ด์์
- ์ ํฉํ ๋ชจ๋ธ ์ ์ ๋ฐ ์ต์ ํ
- Video to text ๋ณํ์ด ๊ฐ๋ฅํ ๋ชจ๋ธ์ ์ฐพ๋ ์ค์ ๋๋ค
- ํ์์ Fine-tuning ๋ฐ ๋ชจ๋ธ ์ฌ์ฉ๋ฒ๋ ์ ๋ฆฝํด์ผ ํ ๊ฒ ๊ฐ์์
ํ์ ์๊ฑด ๋ฐ ์ฑ๊ณต ์งํ
์๋น์ค ๊ฐ๋ฐ์ ์ํ ํ์ ์๊ฑด์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ์ต๋๋ค:
- ์ค์๊ฐ ์ฒ๋ฆฌ ๋ฅ๋ ฅ: ์ต์ํ์ ์ง์ฐ ์๊ฐ์ผ๋ก ํผ๋๋ฐฑ์ ์ ๊ณตํด์ผ ํฉ๋๋ค
- ๋์ ์ ํ๋: ์์ฑ ์ธ์๊ณผ ๋น๋์ค ๋ถ์์ ์ ํ๋๊ฐ ๋์์ผ ํด์
- ๋ค๊ตญ์ด ์ง์: ํ๊ตญ์ด๋ฅผ ํฌํจํ ๋ค์ํ ์ธ์ด๋ฅผ ์ง์ํด์ผ ํฉ๋๋ค
- ์ฌ์ฉ์ ๊ฐ์ธ์ ๋ณด ๋ณดํธ: ๋ฐ์ดํฐ ์ํธํ, ์ต๋ช ํ ๋ฑ ๋ณด์ ์กฐ์น๊ฐ ํ์ํด์
- ํ์ฅ์ฑ: ์ฌ์ฉ์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์์คํ ์ค์ผ์ผ๋ง์ด ๊ฐ๋ฅํด์ผ ํฉ๋๋ค
- ์ฌ์ฉ์ ์นํ์ ์ธํฐํ์ด์ค: ์ฝ๊ฒ ์ ๊ทผํ๊ณ ์ดํดํ ์ ์๋ UI/UX๋ฅผ ์ ๊ณตํด์ผ ํด์
Vision-Language Model์ ํ์ฉํ ๋ฐํ์ ๋ถ์ ์๋น์ค ๊ฐ๋ฐ์ ์ํ ๊ธฐ์ ๋ฆฌ์์น ๋ด์ฉ์ ์ ๋ฆฌํด ๋ณด์์ต๋๋ค. ํ์ฌ ๋ค์ํ VLM ๋ชจ๋ธ(Video-LLaMA, Video-LLaVA, Video-ChatGPT, PLLaVA ๋ฑ)์ด ๊ฐ๋ฐ๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ๋ง๋ค ๊ณ ์ ํ ํน์ฑ๊ณผ ์ฅ์ ์ด ์๋ค๋ ๊ฒ์ ํ์ธํ์ด์. ๋ค์ ๋จ๊ณ๋ก๋ ๊ตฌ์ฒด์ ์ธ ๋ชจ๋ธ ์ ์ ๋ฐ ํ๋กํ ํ์ ๊ฐ๋ฐ์ ํตํด ์ค์ ์๋น์ค ๊ตฌํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ ํ ์คํธ ์ฝ๋๋ฅผ ์์ฑํด์ ๋๋ ค๋ณธ ๋ด์ฉ์ ์ฌ๋ฆด ์์ ์ ๋๋ค. ๊ฐ์ฌํฉ๋๋ค. ๐
'๐ฆ kakaotech' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - PLLaVA Paper Review (0) | 2025.04.07 |
---|---|
[kakaotech] Pitching ๊ฐ๋ฐ๊ธฐ - Video-LLaMA Paper Review (0) | 2025.04.07 |