VLM (Vision Language Model)을 공부하던중 PLLaVA 논문을 읽은후 정리한 내용을 공유합니다.Paper Link PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense CaptioningVision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources,..
Read moreQ. VLM을 적용해서 발표자의 행동을 탐지 & 분석 → Prompt로 특징이 나오려면?1. VLM으로 Object Detection을 한 사레를 알아야 한다.2. VLM으로 최대 몇분까지의 영상 분석이 가능한가? (max 1시간)3. 사용할수 있는 모델이 있는가? Fine-tuning및 모델 사용법은?VLM (Vision Language Model)을 공부하던중 Video-LLaMA 논문을 읽어서 정리한 내용을 공유합니다. Paper Link Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video UnderstandingWe present Video-LLaMA a multi-modal framework that empowers L..
Read more[Paper Review] When MOE meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications
LLM에서 MOE 기법을 적용하여 Medical Domain에서 Task를 수행하는 Reference를 찾아보면서 논문을 읽은 내용을 정리해 보려고 합니다.논문 원문 사이트 When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical ApplicationsThe recent surge in Large Language Models (LLMs) has garnered significant attention across numerous fields. Fine-tuning is often required to fit general LLMs for a specific domain, like the web-based healthcare sy..
Read more