VLM (Vision Language Model)을 공부하던중 PLLaVA 논문을 읽은후 정리한 내용을 공유합니다.Paper Link PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense CaptioningVision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources,..
Read moreQ. VLM을 적용해서 발표자의 행동을 탐지 & 분석 → Prompt로 특징이 나오려면?1. VLM으로 Object Detection을 한 사레를 알아야 한다.2. VLM으로 최대 몇분까지의 영상 분석이 가능한가? (max 1시간)3. 사용할수 있는 모델이 있는가? Fine-tuning및 모델 사용법은?VLM (Vision Language Model)을 공부하던중 Video-LLaMA 논문을 읽어서 정리한 내용을 공유합니다. Paper Link Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video UnderstandingWe present Video-LLaMA a multi-modal framework that empowers L..
Read morePitching Project를 PM & AI Tech 담당자로 개발한지 몇달이 지났지만, 다시 한번 정리하는 개념으로 어떠한 내용을 개발했는지 올려보려고 합니다.Pitching Github Organization Pitching-kakaotechPitching은 "모두가 편하게 소통하고, 자신있게 말하며 연결된 세상을 만들자." 라는 생각으로 탄생한 플랫폼입니다. - Pitching-kakaotechgithub.com 팀에서 AI기술을 활용한 실시간 발표 피드백 기능을 제공하는 프로덕트를 만들어보자고 아이디어가 나와서 개발을 할때,주제와 MVP & 요구사항 명세서(SRS)를 정의한후, 내용을 한번 정리해 보았습니다.기능 우선순위 설정: 우선순위는 "P0", "P1", "P2"으로 구분되며, 사용자 ..
Read more