VLM (Vision Language Model)์ ๊ณต๋ถํ๋์ค PLLaVA ๋ ผ๋ฌธ์ ์ฝ์ํ ์ ๋ฆฌํ ๋ด์ฉ์ ๊ณต์ ํฉ๋๋ค.Paper Link PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense CaptioningVision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources,..
Read moreQ. VLM์ ์ ์ฉํด์ ๋ฐํ์์ ํ๋์ ํ์ง & ๋ถ์ โ Prompt๋ก ํน์ง์ด ๋์ค๋ ค๋ฉด?1. VLM์ผ๋ก Object Detection์ ํ ์ฌ๋ ๋ฅผ ์์์ผ ํ๋ค.2. VLM์ผ๋ก ์ต๋ ๋ช๋ถ๊น์ง์ ์์ ๋ถ์์ด ๊ฐ๋ฅํ๊ฐ? (max 1์๊ฐ)3. ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธ์ด ์๋๊ฐ? Fine-tuning๋ฐ ๋ชจ๋ธ ์ฌ์ฉ๋ฒ์?VLM (Vision Language Model)์ ๊ณต๋ถํ๋์ค Video-LLaMA ๋ ผ๋ฌธ์ ์ฝ์ด์ ์ ๋ฆฌํ ๋ด์ฉ์ ๊ณต์ ํฉ๋๋ค. Paper Link Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video UnderstandingWe present Video-LLaMA a multi-modal framework that empowers L..
Read morePitching Project๋ฅผ PM & AI Tech ๋ด๋น์๋ก ๊ฐ๋ฐํ์ง ๋ช๋ฌ์ด ์ง๋ฌ์ง๋ง, ๋ค์ ํ๋ฒ ์ ๋ฆฌํ๋ ๊ฐ๋ ์ผ๋ก ์ด๋ ํ ๋ด์ฉ์ ๊ฐ๋ฐํ๋์ง ์ฌ๋ ค๋ณด๋ ค๊ณ ํฉ๋๋ค.Pitching Github Organization Pitching-kakaotechPitching์ "๋ชจ๋๊ฐ ํธํ๊ฒ ์ํตํ๊ณ , ์์ ์๊ฒ ๋งํ๋ฉฐ ์ฐ๊ฒฐ๋ ์ธ์์ ๋ง๋ค์." ๋ผ๋ ์๊ฐ์ผ๋ก ํ์ํ ํ๋ซํผ์ ๋๋ค. - Pitching-kakaotechgithub.com ํ์์ AI๊ธฐ์ ์ ํ์ฉํ ์ค์๊ฐ ๋ฐํ ํผ๋๋ฐฑ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ํ๋ก๋ํธ๋ฅผ ๋ง๋ค์ด๋ณด์๊ณ ์์ด๋์ด๊ฐ ๋์์ ๊ฐ๋ฐ์ ํ ๋,์ฃผ์ ์ MVP & ์๊ตฌ์ฌํญ ๋ช ์ธ์(SRS)๋ฅผ ์ ์ํํ, ๋ด์ฉ์ ํ๋ฒ ์ ๋ฆฌํด ๋ณด์์ต๋๋ค.๊ธฐ๋ฅ ์ฐ์ ์์ ์ค์ : ์ฐ์ ์์๋ "P0", "P1", "P2"์ผ๋ก ๊ตฌ๋ถ๋๋ฉฐ, ์ฌ์ฉ์ ..
Read more