My Dev & Engineering Repository

Q. VLM을 적용해서 발표자의 행동을 탐지 & 분석 → Prompt로 특징이 나오려면?
1. VLM으로 Object Detection을 한 사레를 알아야 한다.
2. VLM으로 최대 몇분까지의 영상 분석이 가능한가? (max 1시간)
3. 사용할수 있는 모델이 있는가? Fine-tuning및 모델 사용법은?

VLM (Vision Language Model)을 공부하던중 Video-LLaMA 논문을 읽어서 정리한 내용을 공유합니다.

Paper Link

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

We present Video-LLaMA a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual and

arxiv.org

Video-LLaMA란?

Video-LLaMA는 BLIP-2와 MiniGPT-4를 기반으로 구축된 다중 모달 프레임워크로,
대형 언어 모델(LLM)이 비디오의 시각적 콘텐츠와 오디오 콘텐츠를 모두 이해할 수 있도록 설계되었습니다.
이 모델의 주요 특징은 다음과 같습니다:

비전-언어(VL) 분기와 오디오-언어(AL) 분기를 포함한 통합 아키텍처
대형 언어 모델이 시청각 콘텐츠를 종합적으로 이해할 수 있는 능력
비디오 프레임과 오디오 스트림을 동시에 처리하는 기능

주요 연구 과제와 해결책

Video-LLaMA는 다음 두 가지 주요 과제를 해결하는 데 중점을 두었습니다:

시각 장면에서의 시간 변화 포착
- 사전 학습된 이미지 인코더를 비디오 인코더에 조합하는 Video Q-former를 제안
- 비디오-텍스트 생성 작업을 도입하여 비디오와 언어 간의 대응을 학습
오디오-비주얼 신호 통합
- ImageBind라는 여러 모달리티를 정렬하는 범용 임베딩 모델을 사전 학습된 오디오 인코더로 사용
- Audio Q-former를 도입하여 언어 모델 모듈에 적합한 오디오 쿼리 임베딩을 학습

아키텍처 구성

Model Repo

GitHub - DAMO-NLP-SG/Video-LLaMA: [EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Unde

[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding - DAMO-NLP-SG/Video-LLaMA

github.com

1. Vision-Language Branch

비전-언어 분기는 LLM이 시각적 입력을 이해할 수 있도록 설계되었으며, 다음 구성 요소를 포함.

동결된 사전 학습된 이미지 인코더: 비디오 프레임에서 특징을 추출
Position Embedding Layer: 비디오 프레임에 시간 정보를 주입
Video Q-former: 프레임 수준의 표현을 집합
Linear Layer: 출력된 비디오 표현을 LLM의 텍스트 임베딩과 동일한 차원으로 투영

2. Audio-Language Branch

오디오-언어 분기는 비디오의 청각적 콘텐츠를 처리하기 위해 설계되었으며, 다음 구성 요소를 포함.

사전 학습된 오디오 인코더(ImageBind): 오디오 세그먼트를 입력받아 특징 계산
Position Embedding Layer: 오디오 세그먼트에 시간 정보 주입
Audio Q-Former: 오디오 세그먼트의 특징을 융합
Linear Layer: 오디오 표현을 LLM의 임베딩 공간으로 매핑

학습 방법

다중 브랜치 크로스 모달 학습

Video-LLaMA는 Vision-Language Branch와 Audio-Language Branch를 각각 따로 학습시킵니다.

Vision-Language Branch 학습
- Webvid-2M(스톡 영상 사이트의 텍스트 설명이 포함된 짧은 비디오) 데이터셋 사용
- CC595k(이미지 캡션 데이터셋) 활용
- 비디오-텍스트 생성 작업 적용으로 LLM이 비디오에 대한 텍스트 설명 생성
- MiniGPT-4, LLaVA, Video-Chat의 데이터셋으로 명령 따르기 능력 미세 조정
Audio-Language Branch 학습
- 오디오-텍스트 데이터의 희소성 문제를 해결하기 위한 우회 전략 사용
- ImageBind가 제공하는 공유 임베딩 공간을 활용하여 시각-텍스트 데이터로 학습
- 이를 통해 오디오 데이터로 명시적 학습 없이도 오디오 이해 능력 확보

Video-LLaMA의 주요 능력

다양한 실험을 통해 Video-LLaMA는 다음과 같은 인상적인 능력을 보여주었습니다.

오디오-비주얼 통합 인식 능력
- 비디오의 시각적 콘텐츠와 청각적 콘텐츠를 동시에 이해
- 시각 관련 질문과 오디오 관련 질문에 모두 정확하게 응답
비디오의 시간적 동적 변화를 포착하는 능력
- 시간에 따라 변화하는 행동이나 움직임을 인식하고 설명
정적 이미지를 인식하고 이해하는 능력
- 이미지의 주요 내용을 정확하게 설명
- "비정상적"과 같은 추상적 개념을 이해하고 적용
일반 상식 개념을 인식하는 능력
- 유명한 랜드마크와 인물들을 인식
- 상식적인 질문에 적절하게 응답

한계점

Video-LLaMA는 다중 모달 이해에 큰 진전을 보였지만, 몇 가지 한계도 있습니다.

제한된 인식 능력: 학습 데이터셋의 품질과 규모에 의해 제한됨
긴 비디오 처리 능력의 제한: 영화나 TV 쇼와 같은 긴 비디오 처리에 한계가 있음
환각 문제: 기본 LLM에서 상속받은 환각 문제가 존재함

시사점

Video-LLaMA 모델이 저희 Product 개발에 주는 시사점을 이렇게 생각했습니다.

멀티모달 분석 가능성: 발표자의 시각적 요소(표정, 제스처, 자세)와 청각적 요소(음성, 어조, 속도)를 동시에 분석할 수 있는 가능성을 보여줌
시간적 변화 포착: 발표 과정에서 시간에 따른 변화(예: 제스처의 변화, 목소리 톤의 변화)를 감지할 수 있는 방법론 제시
모듈화된 아키텍처: 비전-언어 분기와 오디오-언어 분기를 별도로 설계하고 학습시킨 후 통합하는 방식은 발표자 분석 시스템의 모듈식 개발에 적용 가능
데이터 부족 문제 해결 전략: 오디오-텍스트 데이터의 희소성 문제를 해결하기 위해 사용한 우회 전략은 발표 피드백 데이터가 부족한 상황에서 참고할 만함.

저작자표시 비영리 동일조건 (새창열림)

'🦁 kakaotech' 카테고리의 다른 글

[kakaotech] Pitching 개발기 - PLLaVA Paper Review (0)	2025.04.07
[kakaotech] Pitching 개발기 - Vision Language Model Research (0)	2025.04.07

Notice

Video-LLaMA란?

주요 연구 과제와 해결책

아키텍처 구성

Model Repo

1. Vision-Language Branch

2. Audio-Language Branch

학습 방법

다중 브랜치 크로스 모달 학습

Video-LLaMA의 주요 능력

한계점

시사점

'🦁 kakaotech' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

Video-LLaMA란?

주요 연구 과제와 해결책

아키텍처 구성

Model Repo

1. Vision-Language Branch

2. Audio-Language Branch

학습 방법

다중 브랜치 크로스 모달 학습

Video-LLaMA의 주요 능력

한계점

시사점

'🦁 kakaotech' 카테고리의 다른 글

티스토리툴바