Large Vision Language Model์ Medical ๋๋ฉ์ธ์ ์ฐ๊ด๋ ๋ด์ฉ์ ๊ณต๋ถํด๋ณด๋ค๊ฐ ๋ ผ๋ฌธ์ ์ฝ์ด์ ํ๋ฒ ์ ๋ฆฌํด๋ณด๊ฒ ์ต๋๋ค.
- ๋ ผ๋ฌธ ์๋ฌธ ์ฌ์ดํธ
Abstract
LVM(Large Vision-Language Model)์ ๋ช ๋ ๊ฐ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์์ผ๋ฉฐ, ์๋ฃ ๋ถ์ผ๋ก ํ์ฅ๋์์ต๋๋ค.
Medical Vision Language Model์ ์๋ฃ ๊ด๋ จ ์ง๋ฌธ ์๋ต ์์ (Visual Question Answering, VQA)์์ ๋ง์กฑํ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋, ํ๊ฐ(hallucination) ๋ฌธ์ ๋ก ์ ํํ ๋ณ๋ฆฌ ์ง๋จ์ ์คํจํ ์๋ ์์ต๋๋ค.
๋ํ Training data์ ๋ถ๊ท ํ์ผ๋ก ์์ ๋ณ๋ฆฌ(minority pathologies)์ ๊ดํ ํ์ต์ด ๋์ง ์๋ ๊ฒฝ์ฐ๋ ์์ต๋๋ค.
์ด์, MLVLMs(Medical Large Vision Language Model)์ ํ๊ฐ์ ์ค์ด๊ณ VQA ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๋ ๊ฐ์ง ํ๋กฌํํธ ์ ๋ต์ ์ ์ํฉ๋๋ค.
- ์ง์๋ ๋ณ๋ฆฌ(pathologies)์ ๋ํ ์์ธํ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค.
- ํน์ ์งํ(metric)์์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํ ์ฝํ ํ์ต์(weak learner)๋ฅผ ํ์ธํ๋ํ์ฌ ๊ทธ ํ๋จ์ ํ ๋๋ก MLVLMs์ ์ ๊ณตํฉ๋๋ค.
MIMIC-CXR-JPG์ Chexpert ๋ฐ์ดํฐ์ ์์ ํ ์คํธํ ๊ฒฐ๊ณผ, F1 ์ค์ฝ์ด๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ๊ฐ์ฅ ํฐ ์ฆ๊ฐํญ์ 0.27์ด์์ต๋๋ค.
๋ํ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ ํ๋กฌํํธ ์ ๋ต์ด Large Vision Language Model ๋๋ฉ์ธ์ผ๋ก ํ์ฅ๋ ์ ์์์ ์ ์ฆํ์์ต๋๋ค.
PoPE ์งํ์ ๋ฐ๋ฅด๋ฉด, ๊ธฐ์กด Large Vision Language Model์ ๊ฑฐ์ง ์์ธก์ ์ต์ ํ์ฌ ๋ฆฌ์ฝ(Recall)์ 0.07 ํฅ์์์ผฐ์ต๋๋ค.
MIMIC-CXR-JPG์ Chexpert ๋ฐ์ดํฐ์ ?
PoPE ์งํ?
VM์ด ์๋ฃ ๋ถ์ผ๋ก ํ์ฅ๋จ. MLVLM์ด VQA์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง ํ๊ฐ ๋ฌธ์ ๋ก ์ธํด ๋ณ๋ฆฌ ์ง๋จ์ ์คํจํ ์ ์์.
Training data์ ๋ถ๊ท ํ ๋ฌธ์ ๋ก ์์ ๋ณ๋ฆฌ์ ๋ํ ํ์ต์ด ์ด๋ ค์
Introduction
์์ญ์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง LLM๋ค์ ๊ด๋ฒ์ํ ์์ฉ ์๋๋ฆฌ์ค์์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
→ LLM(Large Language Models)์ ์ฑ๊ณต์ Vision-Language ๋๋ฉ์ธ์ผ๋ก ํ์ฅ๋๊ณ ์์ต๋๋ค.
LVLM(Large Vision Language Models)์ LLM์ ๊ธฐ๋ฐํ ์๊ฐ์ ํน์ง์ LLM์ด ํด์ํ ์ ์๋ ํน์ง์ผ๋ก ํฌ์ฌํ๋ ์ด๋ํฐ๋ฅผ ํ๋ จํ๊ณ ๊ตฌ์ถํฉ๋๋ค. ์ง๋ฌธ ์๋ต ์์ (Visual Question Answering, VQA)์ LVLM์ ํ์ ๊ธฐ์ ์ด๋ฉฐ, VQA ์ ํ๋๋ ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ํ ์คํธ ์งํ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
LVLM์ ์๋ฃ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋์ด Medical VQA ์์ ์์ ํ ์คํธ๋ฉ๋๋ค.
์ด๋ฌํ MLVLM(Medical Large Vision Language Model)์ ์ ๋ ฅ๋ ์๋ฃ ์ค์บ์ด ๋ํ๋ด๋ ์์ ๋ชจ๋ฌ๋ฆฌํฐ, ์ฅ๊ธฐ, ์ด์์ ๊ดํ ์ง๋ฌธ์ ๋ต๋ณํ ์ ์๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ํ๊ฐ ๋ฌธ์ ๋ LVLM์ ์ฃผ์ํ ๋ฌธ์ ๋ก, ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ๋ชจ์๋๋ ๋ด์ฉ์ ์์ฑํฉ๋๋ค. ๋ํ ํ๊ฐ์ VQA๋ฅผ ํตํด ์ธก์ ๊ฐ๋ฅํฉ๋๋ค. ๋ชจ๋ธ์ ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ๊ฐ์ฒด ์กด์ฌ ์ฌ๋ถ์ ๋ํ ์ง๋ฌธ์ ํ์ฌ ์ฌ๋ฐ๋ฅด๊ฒ ๋ตํ ์ง๋ฌธ์ ๋น์จ๋ก ํ๊ฐ์ ํ๊ฐํฉ๋๋ค.
VQA๋ ์๋ฃ ์ด๋ฏธ์ง ์ง๋จ์ ํ์ฉ๋ ์๋ ์์ต๋๋ค. ์ฌ์ฉ์๋ ๋ณ๋ฆฌ์ ๊ดํ ์ง๋ฌธ์ ํ๊ณ , MLVLM์ ์๋ฃ ์์์ ๋ถ์ ํ ๋ต๋ณํฉ๋๋ค.
๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ์๋ฃ ๋ฐ์ดํฐ์ ์ ์ด๋ฏธ์ง์ ๋ชจ๋ฌ๋ฆฌํฐ, ์ด๋ฏธ์ง์์ ์ฅ๊ธฐ๋ ์กฐ์ง์ ๋ฌด์์ธ์ง์ ๊ฐ์ ๊ฐ๋จํ ์ง๋ฌธ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค.
๋ํ MLVLM์ ์์ง ๊ด๋ฒ์ํ ๋ณ๋ฆฌ์์ VQA ์ ํ๋๋ฅผ ์ถฉ๋ถํ ํ๊ฐ๋ฐ์ง ๋ชปํ์ต๋๋ค.
์ผ๋ฐ์ ์ธ VQA ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๋ตํ ์ง๋ฌธ์ ๋น์จ๋ก ํ ์คํธ๋๋๋ฐ, ์ด๋ ์๋ฃ VQA์ ๋ํ ์ ํฉํ ์ธก์ ์งํ๊ฐ ์๋๋๋ค.
์๋ฃ ์ด๋ฏธ์ง ๋ถ๋ฅ ์งํ์ธ ์ ๋ฐ๋(Precision), ์ฌํ์จ(Recall), F1 ์ค์ฝ์ด๊ฐ ์๋ฃ VQA ๋ชจ๋ธ์ ํ๊ฐํ๋ ๋ฐ ๋ ์ ํฉํฉ๋๋ค.
๋ํ LLM/LVLM์ ์ง๋ฌธ ๋ฐ ๋ต๋ณ์ ํฅ์์ํค๊ธฐ ์ํ ์ฌ๋ฌ ์ ๋ต๋ค์ด ํ๊ตฌ๋๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๊ณ ์ ์ฐ๊ฒฐ๋ง ํ๋กฌํํธ(Chain of Thought Prompting), ์๊ธฐ ์ผ๊ด์ฑ(Self-Consistency), ๊ฒ์ ๊ธฐ๋ฐ ์ฆ๊ฐ(Retrieval-based Augmentation)๋ฑ์ด ์์ต๋๋ค.
์ด๋ฌํ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ธ์ ํ์ธํ๋ํ๋ ๊ฒ์ ํฌํจํ์ง๋ง, ๋น์ฉ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
์๋ฃ ๋น์ ์ธ์ด ๋ชจ๋ธ์ VQA ์ ํ๋๋ฅผ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ํ์ต์ด ํ์ ์๋(training-free) ๋ฐฉ๋ฒ์ด ๋ฐ๋์งํฉ๋๋ค.
MLVLMs๋ ๋ถ๊ท ํํ ํ๋ จ ๋ฐ์ดํฐ๋ก ์ธํ ํ๊ฐ ํ์์ด ์ ํ๋ฉ๋๋ค. ๋ง์ ๋ณ๋ฆฌ๋ค์ ์๋ฃ ๋ฐ์ดํฐ์ ์์ ์์์ ๋ฒ์ฃผ์ ์ํฉ๋๋ค.
๋๊ท๋ชจ ์๋ฃ ๋ฐ์ดํฐ์์ ํ์ต๋ ๋ชจ๋ธ์ ํํ ๋ฐ์ํ์ง ์๋ ๋ณ๋ฆฌ์ ๋ํ ํน์ง์ ํ์ตํ์ง ๋ชปํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ ํธํฅ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๋์ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ ์ ๋ต์ด ํ์ํ์ง๋ง, ๋ถ์กฑํ ์๋ฃ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ คํ ๋ ๋ฐ์ดํฐ์ ์ ๊ธ๊ฒฉํ๊ฒ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ์คํํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์์ฑ ๋ฐ ์์ฑ ์ฌ๋ก๊ฐ ๊ท ํ์ ์ด๋ฃจ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ์ํ๋งํ๋ ๋ฐฉ์์ด ์ฌ์ฉ๋์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๊ฐ์ง ๋ณ๋ฆฌ ์นดํ ๊ณ ๋ฆฌ๊ฐ ์๋ ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
๋ํ ์ฌ์ํ๋ง์ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ๋ฐ์ดํฐ์ ์ ์๊ตฌํ๋ LVLM์์๋ ํ๋ จ ์ฑ๋ฅ์ ์ ํ์ํฌ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ ๋ฐ์ดํฐ์ ์์ ์์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋น์ฉ ํจ์จ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ์กฐํฉ๋๋ค.
์ด ์ฐ๊ตฌ์์๋ MLVLM์ VQA ๋ฅ๋ ฅ์ ์ด์ ์ ๋๋ฉฐ, ํนํ ๊ธฐ์กด์ MLVLM์ธ LLaVA-Med(Li et al., 2023a)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ถ X-ray VQA์์ 5๊ฐ์ง ๋ณ๋ฆฌ์ ๋ํ ์ฑ๋ฅ์ ํ ์คํธํ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ ์์ ๋ณ๋ฆฌ์ ๋ํด ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์์ต๋๋ค.
VQA ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํ ๋ ๊ฐ์ง ํ๋กฌํํธ ์ ๋ต์ ์ ์ํฉ๋๋ค.
- ์ง์๋ ๋ณ๋ฆฌ์ ๋ํ ์์ธํ ์ค๋ช ์ ์ถ๊ฐํฉ๋๋ค (์ง์๋ ๋ณ๋ฆฌ์ ๋ํ ์ค๋ช ๋ฐ ์ด๋ฏธ์ง์ ๋ํ๋๋ ๋ฐฉ์ ํฌํจ).
- ์ฝํ ํ์ต์ ๋ชจ๋ธ์ ๋ค๋ฅธ ์์ด์ ํธ๋ก ๋์ ํ์ฌ ์ํ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ํ๋ จํ๊ณ ํ์ธํ๋ํ์ฌ ๋ถ์ ์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์ ํํ๊ฒ ์๋ณํ๋๋ก ์กฐ์ ํ๋ฉฐ, ๋ถ๋ฅ๊ธฐ์ ๋ถ์ ์ ์์ธก์ ํ๋กฌํํธ์ ์ฐธ๊ณ ๋ก ์ถ๊ฐํฉ๋๋ค.
MIMIC-CXR-JPG(Goldberger et al., 2000)์ Chexpert ๋ฐ์ดํฐ์ ์ผ๋ก ์คํ์ ์ํํ์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์ ํ๋กฌํํธ ์ ๋ต์ด ๋๋ถ๋ถ์ ๋ณ๋ฆฌ ๋ฒ์ฃผ์์ F1 ์ค์ฝ์ด๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ(์ต๋ +0.27), ์ฐ๋ฆฌ์ ์ฝํ ํ์ต์ ํ๋กฌํํธ ์ ๋ต์ด ์ผ๋ฐ ๋๋ฉ์ธ์๋ ์ ์ฉ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ์ ๋ต์ ์ผ๋ฐ ๋๋ฉ์ธ์ LVLM์์ ๋ถ์ ์ ์์ธก์ ์ค์ด๋ฉฐ, POPE ์งํ(Li et al., 2023c)์ ๋ฐ๋ฅด๋ฉด ์ฌํ์จ์ ์ฝ 0.07 ํฅ์์์ผฐ์ต๋๋ค.
Introduction Summary
pathologies์ ์์ธํ explain์ prompt๋ก ์ ๊ณตํ์ฌ MLVLMs์ VQA ์ ํ๋๋ฅผ ํฅ์์์ผฐ์ต๋๋ค.
LLaVA-Med์ ์ฐธ์กฐ๋ก low-coat์ weak-learner Model์ ๋์ ํ์ฌ ๊ฑฐ์ง ์์ฑ(FP) ์๋ต์ ํจ๊ณผ์ ์ผ๋ก ์ค์์ต๋๋ค.
๋ ๋ฒ์งธ prompt strategy์ด ์ผ๋ฐ domain์ผ๋ก ํ์ฅ๋์ด ๋ชจ๋ธ์ด ํน์ ํ accurary ์๊ตฌ์ ์ ์ํ๋๋ก ๋๋ ๊ฒ์ ๋ณด์ฌ์ค.
Related Work
LVLMs์ VQA
LVLM์ LLMs ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋๋ฉฐ, Pre-trained๋ Visual Encoder๋ ์๊ฐ์ Feature๋ฅผ ์ถ์ถํ๊ณ Adapter Module์ ์ถ์ถ๋ Feature๋ฅผ LLM์ด ์ดํดํ ์ ์๋ Feature๋ก ํฌ์ฌํฉ๋๋ค. ์ด๋ฌํ ์ ํ์ ๋ชจ๋ธ์๋ Zhang et al.(2023)์ด ํฌํจ๋ฉ๋๋ค.
Training ์, Visual Encoder์ LLM์ ๊ณ ์ (fix)๋ฉ๋๋ค. VQA๋ LVLMs์ ํ์ ๊ธฐ์ ๋ก, Input Image๊ฐ ์ฃผ์ด์ง ์ํ์์ ๋ชจ๋ธ์ ํด๋น ์ด๋ฏธ์ง์ ๋ํ Question์ ์ฌ๋ฐ๋ฅด๊ฒ ๋ตํ ์ ์์ด์ผ ํฉ๋๋ค.
LVLM VQA์์์ hallucination(ํ๊ฐ)
Hallucination Issue๋ LVLM์ด Input Image์ ์ผ์นํ์ง ์๋ ์๋ต์ ์์ฑํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
VQA์์ ๋ชจ๋ธ์ด ์์ฑํ ๋ต๋ณ์ Object์ ์กด์ฌ ์ฌ๋ถ, ์์น, ์์ฑ ๋๋ Object ๊ฐ ์ํธ ๊ด๊ณ์์ ์ค๋ฅ๋ฅผ ์ผ์ผํฌ ์ ์์ต๋๋ค.
Li et al.(2023c)์ LVLMs๊ฐ ์์ฃผ ๋ฐ์ํ๋ Object๋ฅผ ์ฝ๊ฒ Hallucinationํ ์ ์์ผ๋ฉฐ, ์ด๋ ํด๋น Object๊ฐ Image์ ์กด์ฌํ์ง ์๋๋ผ๋ ๋ชจ๋ธ์ด ์ด๋ฅผ ์ธ๊ธํ๋ ๊ฒฝํฅ์ด ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค.
Qian et al.(2024)๊ณผ Liu et al.(2023a)๋ LVLMs๊ฐ ๋๋๋ก ์ง๋ฌธ์ ์ ์ ๋ฅผ ์ฐธ(true)์ผ๋ก ๊ฐ์ฃผํ๊ณ , ์ด๋ฏธ์ง์ ์๋ Object์ ๋ํด ์ง๋ฌธ์ ๋ฐ์ ๋ ์ฝ๊ฒ ์๋ชป๋ ๋ต๋ณ์ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
LVLM VQA ํ๊ฐ์ ์์ธ
Hallucination์ Data์ ํธํฅ(Bias), ๋ฏธ์ธํ Fine-grained Visual Features, LLM Decoding ์ ๋ต์ผ๋ก ์ธํด ๋ฐ์ํ ์ ์์ต๋๋ค.
Data์ ํธํฅ(Bias)์ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ์ ๋ถ๊ท ํํ ๋ถํฌ๊ฐ ์ค์ํ ์์์ ๋๋ค.
Training Data์ ํน์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ด ๋๋ถ๋ถ "Yes"์ธ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ํด๋น ์ง๋ฌธ์ "Yes"๋ผ๊ณ ๋ตํ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋๋ค.
Missing Fine-grained Visual Feature์ ๋ถ์กฑ์ ์ฃผ๋ก Visual Encoder์ Pretraining์ผ๋ก ์ธํด ๋ฐ์ํฉ๋๋ค.
๋๋ถ๋ถ์ LVLMs๋ Contrastive Learning(๋์กฐ ํ์ต)์ ํตํด Train๋ CLIP์ Visual Encoder๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด Encoder๋ ์ฃผ๋ก Salient Feature(๋๋๋ฌ์ง ํน์ง)์ ์ด์ ์ ๋ง์ถ๊ณ Fine-grained๋ Feature๋ค์ ๋ฌด์ํฉ๋๋ค (Jain et al., 2023).
LVLM์ Decoding ์ ๋ต์ ๋๋ถ๋ถ ์ด์ ์ Text์ Input Image๋ฅผ ๊ณ ๋ คํ์ฌ Conditional Probability(์กฐ๊ฑด๋ถ ํ๋ฅ )๊ฐ ๊ฐ์ฅ ๋์ ๋จ์ด๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด Training Text์ Train๋ ์ง์์ ๊ณผ๋ํ๊ฒ ์์กดํ ๋ Hallucination์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
๊ธฐํ ์์ธ์ผ๋ก๋ ๋ชจ๋ธ์ ๋จ์์ฑ ๋ฐ ์ฃผ์๋ ฅ ๋ถ์กฑ ๋ฑ์ด ์์ต๋๋ค.
LVLM VQA Hallucination(ํ๊ฐ) ์ํ
LVLMs์์ Hallucination(ํ๊ฐ)์ ์ํํ๋ ์ ๋ต์ Prompt Engineering๊ณผ ๋ชจ๋ธ ๊ฐ์ ์ผ๋ก ๋๋ฉ๋๋ค.
์ ์์ ๊ฒฝ์ฐ, Liu et al.(2023a)๋ Input Image์ Bounding Box ์ ๋ณด๋ฅผ ์ฌ์ฉํด Visual Instruction(์๊ฐ ์ง์นจ)์ ๋ง๋ค์ด LLMs๋ฅผ Promptํฉ๋๋ค.
Zheng et al.(2023)์ Chain-of-thought Schema(์ฌ๊ณ ๋ฐฉ์)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ฌ๋์ฒ๋ผ ๋จ๊ณ์ ์ผ๋ก Visual-Language ์ถ๋ก ์ ํ ์ ์๋๋ก Prompt๋ฅผ ๊ตฌ์ฑํ์ฌ ์ฌ๋ฐ๋ฅธ ๋ต์ ๋๋ฌํ๊ฒ ํฉ๋๋ค. Wang et al.(2023)์ Chain-of-thought Schema๋ฅผ ์์ฑํ๊ณ ๋ค์๊ฒฐ ํฌํ๋ฅผ ํตํด ๋ต๋ณ์ ์ ํํฉ๋๋ค.
Caffagni et al.(2024)์ ์ง๋ฌธ์ Term์ ์ค๋ช ํ๋ Prompt๋ฅผ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.
Hallucination์ ์ค์ด๊ธฐ ์ํ ๋ชจ๋ธ ๊ฐ์ ์ ๋ต๊ณผ ๊ด๋ จํ์ฌ, Sun et al.(2023b)๋ Reinforcement Learning(๊ฐํ ํ์ต)์ ํตํด Visual Feature์ Text Feature์ ์ ๋ ฌ์ ๊ฐ์ ํฉ๋๋ค.
Leng et al.(2023)์ Pre-trained๋ ์ง์์ ๋ํ ์์กด์ ์ค์ด๊ธฐ ์ํด Contrastive Decoding(๋์กฐ ๋์ฝ๋ฉ) ์ ๋ต์ ์ ์ํฉ๋๋ค.
Favero et al.(2024)์ Zhao et al.(2024)๋ Inference(์ถ๋ก ) ๋จ๊ณ์ ์ค์ ์ ๋๊ณ Hallucination์ ์ํํ๊ธฐ ์ํ ํน์ Decoding ์ ๋ต์ ์ ์ํ๋ฉฐ, Hallucination์ ์ค์ด๊ธฐ ์ํ ๋ค๋ฅธ ์ ๋ต๋ค๋ ์ ์ํฉ๋๋ค.
์๋ฅผ ๋ค์ด, Zhou et al.(2024)๋ Hallucination๋ Object๋ฅผ Detectํ๊ณ ์์ฑ๋ ๋ต๋ณ์ ์์ ํ๋ Post-processing ๋ชจ๋ธ์ ์ค๊ณํ์ผ๋ฉฐ, Sun et al.(2023a)๋ Human Feedback์ ํ์ฉํ Reinforcement Learning์ ์ฑํํ์ฌ Hallucination ์์ค์ ๊ฐ์ ํ์ต๋๋ค.
LVLM Hallucination(ํ๊ฐ) ํ๊ฐ
LVLMs์์ hallucination(ํ๊ฐ)์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ด ์์ต๋๋ค.
- ์ฒซ ๋ฒ์งธ๋ VQA์
๋๋ค. Input Image์ ์ง์ค๋ Information์ ํ์ฉํด ์ด๋ฏธ์ง ๋ด Object ์กด์ฌ ์ฌ๋ถ์ ๋ํ ์ง๋ฌธ(์: "์ด ์ด๋ฏธ์ง์ ๊ฒ์ ๊ณ ์์ด๊ฐ ์์ต๋๊น?")๊ณผ ์ด๋ฏธ์ง์ ์กด์ฌํ์ง ์๋ Object์ ๋ํ ์ง๋ฌธ์ ๊ตฌ์ฑํฉ๋๋ค.
- ๋ชจ๋ธ์ ์ฌ๋ฐ๋ฅด๊ฒ ๋ต๋ณํ Question์ ๋น์จ๋ก ํ๊ฐ๋ฉ๋๋ค. ์ด๋ฌํ ์ ํ์ ์งํ์๋ POPE(Li et al., 2023c), CIEM(Hu et al., 2023), NOPE(Lovenia et al., 2023)๊ฐ ํฌํจ๋ฉ๋๋ค.
- ๋ ๋ฒ์งธ ์ ๊ทผ ๋ฐฉ์์ Pre-designed๋ Prompt๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ Generated Answer๋ฅผ ๋ง๋ค๊ณ ์ด๋ฅผ ํ๊ฐํ๋ ๊ฒ์
๋๋ค.
- ์๋ก๋ Generated๋ Image Caption์์ Hallucination๋ ๊ฐ์ฒด๋ฅผ Countํ๋ CHAIR(Rohrbach et al., 2018), GPT-4(OpenAI et al., 2023)๋ฅผ ์ฌ์ฉํด Generated & Human Answer๋ฅผ ๋น๊ตํ์ฌ Hallucination Propensity(๊ฒฝํฅ)์ ํ๊ฐํ๋ MMHAL-BENCH(Sun et al., 2023b)๊ฐ ์์ต๋๋ค.
Methodology
์์ ๊ทธ๋ฆผ์ ์ผ๋ฐ์ ์ธ LVLMs์ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด๋ Pre-trained๋ Unimodal(๋จ์ผ๋ชจ๋ฌ) LLM์ธ Llama์ Vicuna๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. Pre-trained๋ Visual Encoder, ์๋ฅผ ๋ค์ด ViT๋ ๊ธฐ์กด์ CNNs๊ฐ Image Feature๋ฅผ ์ถ์ถํ๊ณ , Adapter๊ฐ ์ด๋ฌํ ํน์ง์ Text Feature ๊ณต๊ฐ์ผ๋ก ํฌ์ฌํฉ๋๋ค.
ํฌ์ฌ๋ Visual Feature๋ Text Prompt Embedding๊ณผ ๊ฒฐํฉ๋์ด LLM์ ์ ๋ ฅ๋ฉ๋๋ค.
- Adapter๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ Non-linear Activation์ด ํฌํจ๋ Linear Layer๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Visual Encoder์ Weight(๊ฐ์ค์น)๋ Training ์ค์ ๊ณ ์ ๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ Pre-Trained๋ LLaVA-Med(Li et al., 2023a)๋ฅผ ๋ชจ๋ธ๋ก ์ ํํ์์ผ๋ฉฐ, ์ด๋ LLaVA(Liu et al., 2023b)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ MLVLM์ ๋๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ๋ Figure 1๊ณผ ์ ์ฌํ๋ฉฐ, Pre-Trained๋ Vicuna๋ฅผ ์ฌ์ฉํ๊ณ , Visual Encoder๋ก CLIP์์ Pre-Trained๋ ViT Encoder๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ์ฌ๊ธฐ์ Adapter๋ ๋จ์ํ Trainable(ํ๋ จ ๊ฐ๋ฅ)ํ Projection Matrix(ํฌ์ฌ ํ๋ ฌ)์ ๋๋ค.
- Visual Encoder์ LLM์ Weight(๊ฐ์ค์น)๋ Training ์ค์ ๊ณ ์ ๋ฉ๋๋ค.
LLaVA-Med๋ LLaVA๋ฅผ ๋ ๋จ๊ณ์ ๊ฑฐ์ณ์ Fine-tuning(๋ฏธ์ธ ์กฐ์ )ํฉ๋๋ค.
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ ์ ๋ ฅ๋ Medical Image๋ก๋ถํฐ Medical Report๋ฅผ ์์ฑํ๋๋ก LLaVA๋ฅผ Fine-tuningํฉ๋๋ค.
- ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ GPT-4๋ฅผ ์ฌ์ฉํด Truth Reports๋ก๋ถํฐ ๋ค์ํ Question์ ์์ฑํ๊ณ , ๋ชจ๋ธ์ด Question์ ๋ตํ ์ ์๋๋ก Fine-tuningํฉ๋๋ค.
๋๋ถ๋ถ์ LVLMs๋ ํ์ฌ Medical VQA๋ฅผ ํตํด Training๋๋ฉฐ, ๋ค์ํ Pathologies(๋ณ๋ฆฌ)์ ๊ด๋ จ๋ ์ง๋ฌธ์ ํตํด Medical ์ง๋จ์ ์ํํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด “์ด ์ด๋ฏธ์ง์ ํ ๋ณ๋ณ์ด ์์ต๋๊น?”์ ๊ฐ์ ์ง๋ฌธ์ด ์ด์ ํด๋นํฉ๋๋ค.
๋ชจ๋ธ์ Hallucination์ ์ค์ด๊ณ VQA Accuracy๋ฅผ ํฅ์์ํค๊ธฐ ์ํด, Inference(์ถ๋ก ) ๋จ๊ณ์์ ๋ ๊ฐ์ง ์ ๋ต์ ์ ์ํฉ๋๋ค.
- ์ง์๋ Pathologies(๋ณ๋ฆฌ)์ ๊ดํด ์์ธํ ์ค๋ช ์ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.
- Weak-learner์ Inference(์ถ๋ก )๋ฅผ ๊ณ ๋ คํ๋๋ก ๋ชจ๋ธ์ ์์ฒญํฉ๋๋ค.
์์ธ ์ค๋ช ์ ํตํ Prompt ์ ๊ณต
๋ถ๊ท ํํ training data๋ก ์ธํด LLVLMs๋ ์์ pathologies(๋ณ๋ฆฌ)์ ํน์ง์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ ์ ์์ต๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด inference(์ถ๋ก ) ๋จ๊ณ์์ Prompt๋ก ์ง์๋ pathologies(๋ณ๋ฆฌ)์ ๋ํ ์์ธํ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค.
์ค๋ช ์ pathologies(๋ณ๋ฆฌ)๋ฅผ ๊ฐ๋ตํ ์ ์ํ๊ณ , pathologies(๋ณ๋ฆฌ)๋ฅผ ๋ํ๋ผ ์ ์๋ medical image์ ๋ช ๊ฐ์ง ์ฃผ์ ์๊ฒฌ์ ๋ํ๋ ๋๋ค. ์์๋ figure 2์ ๋์ ์์ต๋๋ค. Model์ ํ๋ถ์ข (Pulmonary Edema)์ด ํ์ ์ก์ฒด๊ฐ ์ถ์ ๋๋ ๊ฒ์์ ์๋ ค์ค๋๋ค. ๊ทธ๋ค์ ํ๋ถ์ข ์ ์์ฌํ ์ ์๋ ๋ช ๊ฐ์ง ํ๋ถ X-ray ์๊ฒฌ์ ์ ๊ณตํฉ๋๋ค.
Model์ ์ฃผ์ด์ง image์ ์๊ฒฌ์ ์ฐ๊ฒฐํ์ฌ ์ฃผ์ด์ง image์ ํ๋ถ์ข ์ด ์๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํฉ๋๋ค.
Prompt Template์ ์ฌ๋ฌ pathologies๋ณ๋ก ์ ๊ณต๋๋ฉฐ, ๋ถ๋ก A์ ์์ธํ ๋์ด๋์ด ์์ต๋๋ค.
Q: Pulmonary edema๋ ํ์ ์ฒด์ก์ด ์ถ์ ๋๋ ํ์์ ๋๋ค. ๋ช ๊ฐ์ง ์ผ๋ฐ์ ์ธ X-ray ์๊ฒฌ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1. ๋ฐ์ฅ ๋ ๊ฐ ๋ชจ์์ ๋ฎ์ ์ค์ฌ ํ ์์ญ์ ๋ฐ๋ ์ฆ๊ฐ.
2. ํ ์ฃผ๋ณ๋ถ์์ ์๊ณ ์ ํ์ ๋ถํฌ๋ช ์ฑ, ์ข ์ข ๊ฐ์ง๋ถ์ข ์ ๋ํ๋ ๋๋ค.
3. ํํ๊ด์ ์๋ ฅ ์ฆ๊ฐ๋ก ์ธํ ํ๊ด ํ์ฅ์ผ๋ก ์ธํ ํ๊ด ํ์์ ๋๋๋ฌ์ง. ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ ๋, ์ด ์ด๋ฏธ์ง์ ๋ถ์ข ์ด ์์ต๋๊น?
A: ์ด ์ด๋ฏธ์ง์๋ ๋ถ์ข ์ด ์์ต๋๋ค.
Q: Pulmonary edema๋ ํ์ ์ฒด์ก์ด ์ถ์ ๋๋ ํ์์ ๋๋ค. ๋ช ๊ฐ์ง ์ผ๋ฐ์ ์ธ X-ray ์๊ฒฌ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
1. ๋ฐ์ฅ ๋ ๊ฐ ๋ชจ์์ ๋ฎ์ ์ค์ฌ ํ ์์ญ์ ๋ฐ๋ ์ฆ๊ฐ.
2. ํ ์ฃผ๋ณ๋ถ์์ ์๊ณ ์ ํ์ ๋ถํฌ๋ช ์ฑ, ์ข ์ข ๊ฐ์ง๋ถ์ข ์ ๋ํ๋ ๋๋ค.
3. ํํ๊ด์ ์๋ ฅ ์ฆ๊ฐ๋ก ์ธํ ํ๊ด ํ์ฅ์ผ๋ก ์ธํ ํ๊ด ํ์์ ๋๋๋ฌ์ง. ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๋ ์ด ์ด๋ฏธ์ง์์ ๋ถ์ข ์ ๊ฐ๋ฅ์ฑ์ 0.1๋ก ์๊ฐํฉ๋๋ค. ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ ๋, ์ด ์ด๋ฏธ์ง์ ๋ถ์ข ์ด ์์ต๋๊น?
A: ์ด ์ด๋ฏธ์ง์๋ ๋ถ์ข ์ด ์์ต๋๋ค.
์์ธ ์ค๋ช ๊ณผ Weak-learner๋ฅผ ํตํ Prompt ์ ๊ณต
Data Re-sampling์ weak-learner์์ negative prediction์ ๋ฐํํ๋ ์ ํต์ ์ธ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ฒฝํฅ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ ๋ต์ ๋๋ค.
Re-sampling๋ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋ ๋ชจ๋ธ์ precision(์ ๋ฐ๋) ๋ฐ recall(์ฌํ์จ) ์ค์ฝ์ด๊ฐ ํฅ์๋๋ ๊ฒฝ์ฐ๊ฐ ์์ง๋ง, MLVLMs์ ์ ํฉํ์ง ์์ ์๋ ์์ต๋๋ค.
- ์ด์ 1: ์ฌ๋ฌ ๋ณ๋ฆฌ(pathologies) ๋ฒ์ฃผ๋ฅผ ํฌํจํ ๋ฐ์ดํฐ์ ์ ๊ท ํ์ ์ก๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค.
- ์ด์ 2: MLVLMs๋ ์ผ๋ฐ์ ์ผ๋ก ๋ ํฐ ๋ฐ์ดํฐ์ ์ ์๊ตฌํ๋ฉฐ, ํ์ธํ๋์๋ ๋น์ฉ์ด ๋ง์ด ์๋ชจ๋ฉ๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , MLVLMs๋ Resampling๋ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋ ์ํ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ด์ ์ ๋ณผ ์ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ Du et al.(2023)๊ณผ ๊ฐ์ Multi-Agent LLM ์์คํ ๊ณผ ์ ์ฌํฉ๋๋ค. ์ฌ๋ฌ LLM์ด ์๋ก ํ ๋ก ํ๋ฉฐ, ๋ค๋ฅธ ๋ชจ๋ธ์ด ์์ฑํ ์ถ๋ ฅ๋ฌผ์ ์ฐธ์กฐํ์ฌ ํ๊ฐ(hallucination)์ ๊ต์ ํ ์ ์์ต๋๋ค.
์ ํต์ ์ธ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ ๋ ์๊ธฐ ๋๋ฌธ์, ํน์ ๋ณ๋ฆฌ์ ์ฌ์ํ๋ง๋ ๋ฐ์ดํฐ์ ์์ ํ๋ จ๋ ๋ค์์ ์ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ๋ จ์ํค๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ธ๋ถํ๋ ํน์ ์ธก๋ฉด(์: False Positive(FP) ๋๋ False Negative(FN)์ ๊ฐ์)์ ์ต์ ํํ๋๋ก ํ์ธํ๋ํ ์ ์์ผ๋ฉฐ, ๋ถ๋ฅ๊ธฐ๋ ์๋ฃ ์ด๋ฏธ์ง์ ์ ์ฉ๋์ด ์ด๊ธฐ ์์ธก์ ๋ฐํํฉ๋๋ค.
๋ฐ๋ผ์ MLVLM์ ํนํ๋ ๋ชจ๋ธ์ด ์ ๊ณตํ ์ ์๋ ์ธ๋ถ์ ์ธ ์ดํด๋ก๋ถํฐ ๊ฐ์ ์ ์ผ๋ก ํํ์ ๋ฐ์ ์ ์์ต๋๋ค.
์ด ๋ฐฉ๋ฒ์ ์์์๋ค์ด ์๋ฃ ๊ฒฐ์ ์ ๋ด๋ฆด ๋ ๊ณผ์ ์น๋ฃ(overtreatment)์ ๋ถ์กฑ ์น๋ฃ(undertreatment) ๊ฐ์ ๊ท ํ์ ๋ง์ถฐ์ผ ํ๊ธฐ ๋๋ฌธ์ ์๋ฏธ๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณผ์ ์น๋ฃ์ ๋น์ฉ์ด ๋ถ์กฑ ์น๋ฃ์ ๋น์ฉ๋ณด๋ค ํด ๊ฒฝ์ฐ, ๊ทธ๋ค์ ๊ฑฐ์ง ์์ฑ(FP) ๋น์จ์ด ๋ฎ์ ๋ชจ๋ธ์ ์ ํธํ ์ ์์ต๋๋ค.
๊ทธ๋ฆผ 3์ ํ๋ถ์ข ์ ์กด์ฌ์ ๋ํ ์ง์ ์์๋ก, ๋ชจ๋ธ์ด ํ๋ถ์ข (edema)์ ๋ํ ์์ธํ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์, weak-learner๋ฅผ ์ฌ์ฉํด ๊ฑฐ์ง ์์ฑ(FP)์ ์ต์ ํฉ๋๋ค. ์ด๋ฏธ์ง๋ ๋์ ๋ฏผ๊ฐ๋์ ์ง์์ฑ(TN) ๋น์จ๋ก ๊ท ํ ์กํ ๋ฐ์ดํฐ์ ์์ ํ์ธํ๋๋ ํ๋ถ์ข ๋ถ๋ฅ๊ธฐ(edema classifier)์ ์ ๋ ฅ๋ฉ๋๋ค.
์์ธก์ด ๋ถ์ ์ ์ธ ๊ฒฝ์ฐ, ๋ณ๋ฆฌ ์ค๋ช ๋ค์ "์ด ์ด๋ฏธ์ง์์ ๋ ๋ค๋ฅธ ์์ด์ ํธ๋ ํ๋ถ์ข ์ ํ๋ฅ ์ 0.1๋ก ์๊ฐํฉ๋๋ค."๋ผ๋ ํ๋กฌํํธ๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์์ฌ ๊ฒฐ์ ์๊ณ๊ฐ(decision threshold)์ด ํ์ธํ๋๋์ด ๋ ์ด์ 0.5๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ์ค์ ์์ธก ํ๋ฅ ๋์ ๊ฐ์ ์๋์ผ๋ก ์ ํํฉ๋๋ค.
์ฌ๊ธฐ์ False Positive(FP)๋ฅผ ์ค์ด๋ ๊ฒ์ด ๋ชฉํ์ด์ง๋ง, ์ด ๋ ผ๋ฌธ์ ์ ๋ต์ True Positive(TP)์ ๋น์จ์ ๋์ด๋๋ก ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ธํ๋ํ๊ณ , ๊ธ์ ์ ์ธ ์์ธก์ธ ๊ฒฝ์ฐ ํ๋กฌํํธ๋ฅผ ์ ์ฉํ์ฌ False Negative(FN)์ ๋น์จ์ ์ค์ด๋ ๋ฐ์๋ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
Methodology Summary
๋ชจ๋ธ ๊ตฌ์กฐ:
LLaVA-Med๋ ์ฌ์ ํ๋ จ๋ LLM(Vicuna)๊ณผ ์๊ฐ ์ธ์ฝ๋(CLP์ ViT)๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌ์ถ๋จ.
์ด๋ํฐ ๋ชจ๋์ ์๊ฐ์ ํน์ง์ ํ ์คํธ ํน์ง์ผ๋ก ํฌ์ฌํ๋ฉฐ, ์๊ฐ ์ธ์ฝ๋์ LLM์ ๊ฐ์ค์น๋ ๊ณ ์ ๋จ.
์ฐ๊ตฌ ๋ชฉํ
MLVLMs์ VQA ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ๊ฐ์ง ํ๋กฌํํธ ์ ๋ต์ ์ ์:
1. ์ง์๋ ๋ณ๋ฆฌ์ ๋ํ ์์ธ ์ค๋ช ์ ๊ณต: ๋ณ๋ฆฌ์ ์ ์์ ์ฃผ์ X-ray ์๊ฒฌ์ ํฌํจํ์ฌ ๋ชจ๋ธ์ด ๋ฏธ์ฒ ํ์ตํ์ง ๋ชปํ ๋ณ๋ฆฌ๋ฅผ ์ดํดํ๋๋ก ๋๋ ์ ๋ต.
2. ์ฝํ ํ์ต์(weak learner) ๋ชจ๋ธ ๋์ : ์ํ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํด ๋ถ์ ์ ์์ธก์ ์์ฑํ๊ณ , ์ด๋ฅผ ํ๋กฌํํธ์ ๋ฐ์ํ์ฌ ์ง๋จ ์ ํ๋๋ฅผ ๋์ด๋ ์ ๋ต.
์คํ ๋ฐ ํ๊ฐ
MIMIC-CXR-JPG์ Chexpert ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์คํ์ ์ํ.
PT1(๊ธฐ๋ณธ ํ๋กฌํํธ), PT2(๋ณ๋ฆฌ ์ค๋ช ํฌํจ ํ๋กฌํํธ), PT3(์ฝํ ํ์ต์ ํฌํจ ํ๋กฌํํธ) ์ธ ๊ฐ์ง ํ๋กฌํํธ ์ ๋ต์ ๋น๊ต.
์ฝํ ํ์ต์๋ ๊ฑฐ์ง ์์ฑ(FP)์ ์ค์ด๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, PT3 ์ ๋ต์์ F1 ์ ์๊ฐ ํฌ๊ฒ ํฅ์๋จ.
Weak-Learner(์ฝํ ํ์ต์)์ ์ฉ
์ฝํ ํ์ต์๋ ResNet50์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋๋ฉฐ, ํน์ ๋ณ๋ฆฌ์ ๋ํด ๋ถ์ ์ ์์ธก์ ์ ๊ณตํ์ฌ FP๋ฅผ ์ต์ ํ๋ ๋ฐ ์ฌ์ฉ๋จ.
LLaVA-Med์ ์์ธก ์๋ต์ "์/์๋์ค" ํํ๋ก ์์ฝํ๋ ๋ฐ Llama-7B๋ฅผ ์ฌ์ฉํจ.
์ผ๋ฐ ๋๋ฉ์ธ ํ์ฅ์ฑ
์ด ํ๋กฌํํธ ์ ๋ต์ ์๋ฃ ๋๋ฉ์ธ์ ๋์ด ์ผ๋ฐ LVLMs์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ค๋ฅธ ๋๋ฉ์ธ์์๋ ๊ฑฐ์ง ์์ธก์ ์ค์ด๊ณ ์ฌํ์จ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์.
Empirical Study (์ค์ฆ ์ฐ๊ตฌ)
LLaVA-Med๋ PMC-15M ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐํ์ฌ ์ฌ์ ํ๋ จ๋์์ต๋๋ค.
์ด ๋ฐ์ดํฐ์ ์๋ CT, MRI, X-ray ๋ฑ ์ฌ๋ฌ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ด ํฌํจ๋์ด ์์ต๋๋ค.
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ 467,710๊ฐ์ ์ด๋ฏธ์ง-๋ฆฌํฌํธ ์์ด ํ๋ จ์ ์ ํ๋์์ต๋๋ค.
- ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก 56,708๊ฐ์ ์ง๋ฌธ-๋ต๋ณ ์์ด ์์ฑ๋์ด ๋ชจ๋ธ์ ์ง๋ฌธ ๋ฐ ์๋ต์ ๋ง์ถฐ ํ์ธํ๋ํ์์ต๋๋ค.
ํ 1์ LLaVA-Med ํ๋ จ ๋ฐ์ดํฐ(๋ ๋ฒ์งธ ๋จ๊ณ)์์ ํ ์คํธ๋ 5๊ฐ์ง ๋ณ๋ฆฌ ์ค ํ๋๋ก ์์ฑ ์ฌ๋ก๋ก ์ธ๊ธ๋ ๋ฆฌํฌํธ ์๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ ์ฒด ๋ฐ์ดํฐ์ ๋นํด ์ด 5๊ฐ์ง ๋ฒ์ฃผ๊ฐ ์์์ ์ํจ์ ์๋ฏธํฉ๋๋ค.
MLVLM์ ์ ๋ก์ท ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด MIMIC-CXR-JPG(Goldberger et al., 2000) ๋ฐ Chexpert(Irvin et al., 2019) ํ๋ถ X-ray ํ ์คํธ ์ ์ ์ฌ์ฉํ์์ต๋๋ค.
- ๊ฐ๊ฐ 5,159๊ฐ์ 668๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ PMC-15M๊ณผ ์ค๋ณต๋์ง ์์ต๋๋ค.
MIMIC-CXR-JPG๋ 13๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ค๋ฃจ๋ ์ด๋ฏธ์ง์ ์๋ฃ ๋ฆฌํฌํธ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค.
- ๋ฌด๊ธฐํ(Atelectasis), ์ฌ๋น๋(Cardiomegaly), ๋์ถ(Consolidation), ๋ถ์ข (Edema), ์ฌ๋น๋์ฆ(Enlarged Cardiomediastinum), ๊ณจ์ (Fracture), ํ ๋ณ๋ณ(Lung Lesion), ํ ํผํ(Lung Opacity), ํ๋ง ์ผ์ถ(Pleural Effusion), ํ๋ ด(Pneumonia), ๊ธฐํ(Pneumothorax), ๊ธฐํ ํ๋ง ๋ณ๋ณ(Pleural Other), ๋ณด์กฐ ์ฅ์น(Support Devices) ๋ฑ์ด ์์ต๋๋ค.
๋ฆฌํฌํธ๋ ํ์ฑ๋์ด ๊ท์น ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ํตํด ์๋์ผ๋ก ๋๋ต์ ์ธ ์ด๋ฏธ์ง ์์ค ํ๊ทธ๊ฐ ์์ฑ๋ฉ๋๋ค(Irvin et al., 2019).
๊ฐ ๋ผ๋ฒจ์๋ 4๊ฐ์ง ๊ฐ์ด ํฌํจ๋ฉ๋๋ค: 1(๊ธ์ ์ ), 0(๋ถ์ ์ ), -1(๋ถํ์คํจ), ๋๋ฝ. ๊ฐ๋จํ ํ๊ธฐ ์ํด, ์ฌ๊ธฐ์๋ ๋ถํ์คํจ๊ณผ ๋๋ฝ์ ๋ถ์ ์ ๋ผ๋ฒจ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋ํ weak-learner ๋ชจ๋ธ์ ํ๋ จ์ํค๊ธฐ ์ํด 227,827๊ฐ์ ํ๋ถ X-ray์ ๋ฆฌํฌํธ๋ฅผ ํฌํจํ๋ MIMIC-CXR-JPG ํ๋ จ ์ ์ ์ฌ์ฉํ์์ต๋๋ค.
Chexpert๋ MIMIC-CXR-JPG์ ๋์ผํ 13๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์๋ฃ ๋ฆฌํฌํธ๋ฅผ ํฌํจํ์ง ์์ผ๋ฉฐ, ์ด๋ฏธ์ง ์์ค ๋ผ๋ฒจ๋ง ์์ต๋๋ค. MIMIC-CXR-JPG์ Chexpert ์ฌ์ด์ ์ค๋ณต๋๋ ๋ฐ์ดํฐ๋ ์์ต๋๋ค.
ํ 2๋ MIMIC-CXR-JPG ๋ฐ Chexpert ํ ์คํธ ์ ์์ ๋ณ๋ฆฌ ๋ฒ์ฃผ(์ ์์ ์ ์ธํ)์ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฑฐ์ ๋ชจ๋ ๋ณ๋ฆฌ ๋ฒ์ฃผ๋ ์์ฑ(๊ธ์ ์ ๋ฐ์)๋ณด๋ค ์์ฑ(๋ถ์ ์ ๋ฐ์)์ด ํจ์ฌ ์ ์ ์์ ๋ฒ์ฃผ์ ๋๋ค.
์ฃผ์ ํ ์คํธ ์ฒด๊ณ์์ ์ด ๋ ผ๋ฌธ์์๋ Chexpert Competition(Irvin et al., 2019)์์์ ๋ค์ฏ ๊ฐ์ง ๋ณ๋ฆฌ, ์ฆ ๋ฌด๊ธฐํ(Atelectasis), ์ฌ๋น๋(Cardiomegaly), ๋์ถ(Consolidation), ๋ถ์ข (Edema), ์ฌ๋น๋์ฆ(Enlarged Cardiomediastinum)์ ์ ํํ์์ต๋๋ค.
๊ตฌํ ์ธ๋ถ ์ฌํญ
์์ฅ์์ ์ธ๊ธํ๋ฏ์ด, ์ฐ๋ฆฌ๋ ์ฌ์ ํ๋ จ๋ LLaVA-Med MLVLM์ ์ถ๊ฐ์ ์ธ fine-tuning ์์ด ์ฌ์ฉํ์์ต๋๋ค.
Classification ์์ ์ VQA ์์ ์ผ๋ก ๋ณํํ๊ธฐ ์ํด ํ 3์ ์ฒซ ๋ฒ์งธ ํ์ ํ์๋ Prompt Template์ ์ฌ์ฉํ์์ต๋๋ค.
์ด๋ฅผ ํ๋กฌํํธ ํ ํ๋ฆฟ 1(PT1)์ด๋ผ๊ณ ํฉ๋๋ค.
๋จผ์ PT1์ ์ฌ์ฉํ์ฌ ์ฌ์ ํ๋ จ๋ LLaVA-Med๋ฅผ ์คํํ์์ต๋๋ค. ๋ค์์ผ๋ก, ๋ณ๋ฆฌํ์ ์ค๋ช ์ ํฌํจํ์ฌ(ํ 3์ ๋ ๋ฒ์งธ ํ) ํ๋กฌํํธ ํ ํ๋ฆฟ 2(PT2)๋ฅผ ์ป์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก weak-learner์ ์์ธก์ ํ๋กฌํํธ์ ํตํฉํ์ฌ ํ๋กฌํํธ ํ ํ๋ฆฟ 3(PT3)์ ์์ฑํ์์ต๋๋ค.
์คํ์ ํตํด ๊ฒ์ฆ๋์๋ฏ์ด, weak-learner๋ False Positive(FP) ์์ธก์ ์ต์ ํ๋๋ก ์ค๊ณํ์์ต๋๋ค.
์ด๋ฅผ ์ํด ์ฌ์ ํ๋ จ๋ ResNet50(He et al., 2016)์ ์ฌ์ฉํ์์ต๋๋ค.
๊ฐ ๋ณ๋ฆฌ์ ๋ํด ์์ฑ ์ฌ๋ก์ ์์ฑ ์ฌ๋ก์ ๋น์จ์ด 2:1์ธ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ํ๋งํ์์ต๋๋ค.
๋ชจ๋ธ์ ํ์ต๋ฅ 1e-4๋ก 10๋ฒ์ epoch ๋์ ํ๋ จ๋์์ต๋๋ค.
ํ๋ จ ๊ณผ์ ์ AUC ์ ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ํฐ๋ง๋์์ผ๋ฉฐ, ๊ฐ์ฅ ๋์ ๊ฒ์ฆ AUC๋ฅผ ๊ธฐ๋กํ ๋ชจ๋ธ์ ์ ์งํ์์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ decision threshold(์๊ณ๊ฐ) d๋ Specificity(ํน์ด๋)์ Negative Prediction Value(์์ฑ ์์ธก ๊ฐ, NPV)์ ๊ฐ์ค ํฉ์ ์ต์ ํํ๋๋ก fine-tuningํ์์ต๋๋ค.
์ฆ, ๊ฐ์ค์น w1, w2๋ ๊ฐ๊ฐ 0.2, 0.8๋ก ์ค์ ํ์์ต๋๋ค. ์๋ฃ ์ด๋ฏธ์ง๋ weak-learner์ ์ ๋ ฅ๋์ด ๊ฐ ๋ณ๋ฆฌ์ ๋ํ ์ด๊ธฐ ์์ธก์ ์ป์ผ๋ฉฐ, ์์ฑ ์์ธก์ ์ ํ๋์ด PT3 ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
LLaVA-Med๊ฐ ๋ฐํํ ์๋ต์ "์ด ์ด๋ฏธ์ง์ ๋ถ์ข ์ด ์์ต๋๋ค", "๋ถ์ข ์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค", "ํ ๋ด์ ์ก์ฒด๊ฐ ๋ถ์ข ์ ๋ํ๋ ๋๋ค" ๋ฑ ๋ค์ํ ํํ๋ฅผ ์ทจํ ์ ์์ต๋๋ค. ๊ธธ์ด์ง ์๋ต์ ์/์๋์ค๋ก ์์ฝํ๊ธฐ ์ํด Llama-7B(Touvron et al., 2023)๋ฅผ ์ฌ์ฉํ์์ต๋๋ค.
Result
ํ๋กฌํํธ ์ ๋ต์ ํจ๋ฅ์ ์ ์ฆํ๊ธฐ ์ํด, PT1 ๊ธฐ์ค์ ์์ ์์ํ์ฌ ๋ณ๋ฆฌ ์ ๋ณด๋ฅผ ์ ๊ณตํ ํ(์ ๋ต PT2), ์ดํ Weak-learner๋ฅผ ์ฐธ์กฐํ์ฌ ํน์ ์ธก๋ฉด์ ์ฑ๋ฅ์ ๊ฐ์ ํจ์ผ๋ก์จ ์ ๋ต PT3์ ๋์ถํ์์ต๋๋ค.
PT2: ๋ณ๋ฆฌ ์ค๋ช ์ถ๊ฐ
ํ 4๋ MIMIC-CXR-JPG ๋ฐ Chexpert ํ ์คํธ ์ ์์ PT1 ๋ฐ PT2 ์ ๋ต์ ์ ๋ฐ๋(Precision), ์ฌํ์จ(Recall) ๋ฐ F1 ์ค์ฝ์ด๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. MIMIC-CXR-JPG์์ ๋ณ๋ฆฌ ์ค๋ช ์ ์ถ๊ฐํ ํ, ๋ฌด๊ธฐํ, ์ฌ๋น๋, ๋ถ์ข , ํ๋ง ์ผ์ถ์ F1 ์ ์๊ฐ ์ฆ๊ฐํ์ผ๋, ๋์ถ์์๋ ๊ฑฐ์ ๋ณํ๊ฐ ์์์ต๋๋ค.
Chexpert์์๋ ๋ฌด๊ธฐํ(Atelectasis), ์ฌ๋น๋(Cardiomegaly), ๋ถ์ข (Edema)์ F1 Score๊ฐ ์ฆ๊ฐํ์ผ๋, ๋์ถ๊ณผ ํ๋ง ์ผ์ถ์์๋ ์ฆ๊ฐํ์ง ์์์ต๋๋ค.
์ ๋ฐ๋ ๋ฐ ์ฌํ์จ ์ ์๋ฅผ ๋ณด๋ฉด, ์ค๋ช ์ ์ถ๊ฐํ๋ฉด ์ฌํ์จ์ด ํฌ๊ฒ ์ฆ๊ฐํ์ง๋ง ์ ๋ฐ๋์๋ ๊ฑฐ์ ์ํฅ์ ๋ฏธ์น์ง ์๋ ๊ฒ์ผ๋ก ๋ํ๋ฉ๋๋ค.
๋์ถ๊ณผ ๊ฐ์ ์์ ๋ณ๋ฆฌ์ ๊ฒฝ์ฐ F1 ์ ์๊ฐ ๋ฎ์ ์ ๋ฐ๋์ ์ํด ์ง๋ฐฐ๋๋ฏ๋ก, ์ฌํ์จ์ ๋์ด๋ ๊ฒ์ด ํฐ ํจ๊ณผ๋ฅผ ๋ฐํํ์ง ๋ชปํฉ๋๋ค. ๋ฐ๋ผ์ PT2์ ์ฑ๋ฅ ๋ณ๋ชฉ์ ์ ๋ฐ๋์ ๋๋ค.
PT3: Weak-Learner ์ฐธ์กฐ
PT2 ์ ๋ต์ ๋์ด, PT3 ์ ๋ต์ ์ ์ฉํ์ฌ ์ง๋จ ์ ํ๋๋ฅผ ๋์ฑ ํฅ์์์ผฐ์ต๋๋ค.
ํ 5๋ Chexpert ํ ์คํธ ์ ์์ PT2 ์ ๋ต์ ์ฌ์ฉํ๋ LLaVA-Med์ True Positive(TP), False Positive(FP), False Negative(FN) ์์ธก ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ง์ FP ์ฌ๋ก๊ฐ ๋์ ๋๋๋ค. ๋ฐ๋ผ์ FP ์์ธก์ ์ต์ ํ๋๋ก Weak-learner๋ฅผ ์ค๊ณํ์์ต๋๋ค.
ํ 6์ Chexpert์์ Weak-learner๋ฅผ ์ฐธ์กฐํ๊ธฐ ์ ํ์ ์ฑ๋ฅ์ ๋น๊ตํฉ๋๋ค. ์ฌ๋น๋(Cardiomegaly), ๋ถ์ข (Edema), ํ๋ง ์ผ์ถ(Pleural Effusion)์ F1 ์ค์ฝ์ด๊ฐ ๊ฐ๊ฐ 0.115, 0.194, 0.089๋งํผ ์ฆ๊ฐํ์์ต๋๋ค.
PT3 ์ ๋ต์ ํจ๋ฅ์ ๋์ฑ ์ ์ฆํ๊ธฐ ์ํด, ํ 7์ PT2์ PT3 ์ ๋ต์ FP ์์ธก์ ๋น๊ตํฉ๋๋ค.
Weak-learner์ ์์ธก์ ํ๋กฌํํธ์ ํฌํจํจ์ผ๋ก์จ F1 ์์ธก ์ ํ๋๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ ์ ์์์ ๋ณด์์ต๋๋ค. FP ์ฌ๋ก์ ๊ฐ์๋ ํนํ ๋ถ์ข (Edema)์์ ๋๋๋ฌ์ง๋ฉฐ, FP ์๊ฐ 78.5% (322๊ฑด) ๊ฐ์ํ์์ต๋๋ค.
์ถ๊ฐ VQA ์คํ
ํ 8 ์ LLaVA-Med์ PT1, PT2, PT3 ์ ๋ต์ ์ ์ฉํ์ฌ ํ๋ ์ฌ๋น๋, ํ ๋ณ๋ณ, ํ ํผํ, ํ๋ ด, ๊ธฐํ ๋ฑ 5๊ฐ์ง ๋ณ๋ฆฌ์์
MIMIC-CXR-JPG ๋ฐ Chexpert ๋ฐ์ดํฐ์ ์ ํ ์คํธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ 8์ LLaVA-Med์ PT1, PT2, PT3 ์ ๋ต์ ์ ์ฉํ์ฌ ํ๋ ์ฌ๋น๋, ํ ๋ณ๋ณ, ํ ํผํ, ํ๋ ด, ๊ธฐํ ๋ฑ 5๊ฐ์ง ๋ณ๋ฆฌ์์ MIMIC-CXR-JPG ๋ฐ Chexpert ๋ฐ์ดํฐ์ ์ ํ ์คํธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ณ๋ฆฌ ์ค๋ช (PT2)์ ์ ๊ณตํ๋ฉด ์ผ๋ฐ์ ์ผ๋ก PT1 ๊ธฐ์ค์ ๋ณด๋ค ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ง๋ง, ์ผ๊ด๋์ง๋ ์์ต๋๋ค. Weak-learner ์ฐธ์กฐ(PT3)๋ ์ ๋ฐ๋์์ ์ ํ์ ์ธ ์ฆ๊ฐ๋ฅผ ๊ฐ์ ธ์ค์ง๋ง, ์ฌํ์จ์์๋ ํฐ ๊ฐ์๋ฅผ ๋ณด์ ๋๋ค. ์ ๋ฐ์ ์ผ๋ก ํฐ ๊ฐ์ ์ ๋ํ๋์ง ์์์ต๋๋ค.
ํ๋ ์ฌ๋น๋, ํ ๋ณ๋ณ, ํ๋ ด, ๊ธฐํ์ ์์ ๋ฒ์ฃผ์ด๋ฉฐ, ์คํ ์ค์ ๊ณผ Weak-learner๋ฅผ ํฌํจํ์ฌ ์ด๋ฅผ ํ์ตํ์ง ๋ชปํฉ๋๋ค. ํ๋กฌํํธ๋ ์ด๋ฌํ ์ํฉ์์ ํฐ ๋์์ด ๋์ง ์๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
SOTA Benchmark
Tiu et al.(2022)๋ Chexpert ๋ฐ์ดํฐ์ ์์ ๋ฌด๊ธฐํ, ์ฌ๋น๋, ๋์ถ, ๋ถ์ข , ํ๋ง ์ผ์ถ์ ๊ฐ์งํ๋ ๋ฐ ์์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ ๋ฐฉ์ฌ์ ์ ๋ฌธ์์ ์ฑ๋ฅ์ F1 ์ค์ฝ์ด๋ก ๋ณด๊ณ ํ์์ต๋๋ค.
์ด๋ ํ๋ถ X-ray ์ง๋จ์ ์ต์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ํ 9๋ ๋ฐฉ์ฌ์ ์ ๋ฌธ์, Tiu et al.(2022)์ ๋ชจ๋ธ, LLaVA-Med์ F1 ์ค์ฝ์ด๋ฅผ ๋น๊ตํ ๊ฒ์ ๋๋ค. LLaVA-Med์ VQA ์ฑ๋ฅ์ PT1 ๊ธฐ์ค ์ ๋ต์์ ๋ถ๋ง์กฑ์ค๋ฌ์, ๋ชจ๋ธ์ด ์์ ์ค๋ฌด์ ๋ฐฐํฌ๋๊ธฐ์๋ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ ๋ฐฉ์ฌ์ ์ ๋ฌธ์๋ณด๋ค ์ฌ์ ํ ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, ์ฐ๋ฆฌ์ PT3 ์ ๋ต์ ํนํ ๋ฌด๊ธฐํ, ์ฌ๋น๋, ๋ถ์ข ์์ F1 ์ค์ฝ์ด๊ฐ ์ฝ 17%์์ 21% ์ฆ๊ฐํ๋ฉด์ ์๋นํ ๊ฐ์ ์ ๊ฐ์ ธ์์ต๋๋ค
์ผ๋ฐ ๋๋ฉ์ธ LVLMs์์ ์ ์ฉ
ํ๋กฌํํธ ์ ๋ต์ ์ผ๋ฐ ๋๋ฉ์ธ LVLMs์๋ ์ ์ฉ๋ ์ ์์ต๋๋ค.
LLaVA(Liu et al., 2023b) ๋ฐ MiniGPT-v2(Zhu et al., 2023)์ POPE ์งํ(Li et al., 2023c)๋ฅผ ์ฌ์ฉํ ์ฑ๋ฅ์ ์ฐ๊ตฌํ์์ผ๋ฉฐ, ์ด๋ LVLMs์ ํ๊ฐ(hallucination)์ ํ๊ฐํ๊ธฐ ์ํด ๊ฐ์ฒด ์กด์ฌ ์ฌ๋ถ์ ๋ํ ์ง๋ฌธ์ ๋ฌป๋ ๋ฐฉ์์ ๋๋ค.
LLaVA ๋ฐ MiniGPT-v2์ POPE ์ค์ฝ์ด๋ ๋์ ์ ๋ฐ๋์ ๋ฎ์ ์ฌํ์จ์ ๋ณด์์ต๋๋ค.
๋ฐ๋ผ์ Weak-learner ์ ๋ต์ False Negative ์์ธก์ ์ค์ด๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ฌ์ ํ๋ จ๋ Fast-RCNN(Girshick, 2015)์ Weak-learner๋ก ์ ํํ๊ณ , ๋ฐ์ด๋ฉ ๋ฐ์ค ์ ์์ ์๊ณ๊ฐ์ ํ์ธํ๋ํ์ฌ ๋์ ์ฌํ์จ์ ๋ฌ์ฑํ์ผ๋ฉฐ, Weak-learner์ ๊ธ์ ์ ์์ธก์ ํ๋กฌํํธ์ ํฌํจํ์์ต๋๋ค.
ํ 10์ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ง POPE ๋ฒ์ฃผ์์ ์ฌํ์จ ์ ์๊ฐ ์ฝ 7% ์ฆ๊ฐ(์ ๋ฐ๋ ์ ์๋ ์ฝ๊ฐ ๊ฐ์)ํ์ฌ F1 ์ค์ฝ์ด๊ฐ ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค.
Empirical Study (์ค์ฆ ์ฐ๊ตฌ) Summary
4.1 ๋ฐ์ดํฐ์
LLaVA-Med๋ PMC-15M ๋ฐ์ดํฐ์ ์์ ์ฌ์ ํ๋ จ๋จ. MIMIC-CXR-JPG์ Chexpert ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด MLVLM์ ์ ๋ก์ท ์ฑ๋ฅ์ ํ๊ฐํจ. ์ฃผ์ ํ ์คํธ ๋ณ๋ฆฌ๋ก ๋ฌด๊ธฐํ(Atelectasis), ์ฌ๋น๋(Cardiomegaly), ๋์ถ(Consolidation), ๋ถ์ข (Edema), ํ๋ง ์ผ์ถ(Pleural Effusion)์ ์ ํํจ.
4.2 ๊ตฌํ ์ธ๋ถ ์ฌํญ
LLaVA-Med๋ ์ถ๊ฐ ๋ฏธ์ธ ์กฐ์ ์์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ธ ๊ฐ์ง ํ๋กฌํํธ ํ ํ๋ฆฟ(PT1, PT2, PT3)์ผ๋ก ํ ์คํธ๋จ. PT1: ๊ธฐ๋ณธ ํ๋กฌํํธ, PT2: ๋ณ๋ฆฌ ์ค๋ช ์ ํฌํจํ ํ๋กฌํํธ, PT3: ์ฝํ ํ์ต์ ์์ธก์ ํฌํจํ ํ๋กฌํํธ. ์ฝํ ํ์ต์๋ ResNet50 ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ๊ฑฐ์ง ์์ฑ(FP)์ ์ค์ด๋ ๋ฐ ์ด์ ์ ๋ง์ถค.
4.3 ๊ฒฐ๊ณผ
PT2: ๋ณ๋ฆฌ ์ค๋ช ์ ์ถ๊ฐํ ํ, ์ผ๋ถ ๋ณ๋ฆฌ์์ F1 ์ ์๊ฐ ์ฆ๊ฐํ์ง๋ง, ์์ ๋ณ๋ฆฌ์์๋ ํฐ ํจ๊ณผ๊ฐ ๋ํ๋์ง ์์. PT3: ์ฝํ ํ์ต์ ์์ธก์ ํตํฉํ ํ, F1 ์ ์๊ฐ ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ, ํนํ ์ฌ๋น๋(Cardiomegaly), ๋ถ์ข (Edema), ํ๋ง ์ผ์ถ(Pleural Effusion)์์ ํฐ ๊ฐ์ ์ด ์์์.
์ถ๊ฐ VQA ์คํ์์๋ PT3 ์ ๋ต์ด ์ผ๋ถ ๋ณ๋ฆฌ์์๋ ์ฑ๋ฅ์ด ํฅ์๋์์ง๋ง, ๋ค๋ฅธ ๋ณ๋ฆฌ์์๋ ํฐ ๋ณํ๊ฐ ์์์. SOTA Benchmark์์ ๋น๊ต์์, PT3 ์ ๋ต์ด ์ ์ฉ๋ LLaVA-Med๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋์์ผ๋, ์ฌ์ ํ ๋ฐฉ์ฌ์ ์ ๋ฌธ์์ ์ฑ๋ฅ์๋ ๋ฏธ์น์ง ๋ชปํจ. ์ผ๋ฐ ๋๋ฉ์ธ LVLMs์๋ ํ๋กฌํํธ ์ ๋ต์ด ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, POPE ์งํ๋ฅผ ํตํด ์ฌํ์จ์ด ์ฝ 0.07 ํฅ์๋จ.
Conclusion & Discussion
LLaVA-Med ์๋ฃ ๋๊ท๋ชจ Vision-Language Model์ ์๊ฐ ์ง๋ฌธ ์๋ต(VQA) ๋ฅ๋ ฅ์ ๋ณ๋ฆฌ ์ง๋จ์ ์ ์ฉํ์ฌ ํ ์คํธํ์์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ด ๋ณต์กํ ๋ณ๋ฆฌ์ ์กด์ฌ ์ฌ๋ถ๋ฅผ ๋ฌป๋ ์ง๋ฌธ์ ๋ํด ๋ง์กฑ์ค๋ฝ์ง ์์ ์ฑ๋ฅ์ ๋ณด์์์ ์ ์ ์์์ต๋๋ค.
๋ชจ๋ธ์ Vision-Question-Answer ์ ํ๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ๋ ๊ฐ์ง ํ๋กฌํํธ ์์ง๋์ด๋ง ์ ๋ต์ ์ฌ์ฉํ์์ต๋๋ค.
๋ณ๋ฆฌ์ ๋ํ ์ค๋ช ์ ์ ๊ณตํ๋ ์ ๋ต๊ณผ Weak-Learner(์ฝํ ํ์ต์)์ ์์ธก์ ์ฐธ์กฐํ๋ ์ ๋ต์ ๋๋ค.
- ์ฒซ ๋ฒ์งธ ์ ๋ต์ ๋ชจ๋ธ์ด ํ๋ จ ๋จ๊ณ์์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ ์์ ๋ณ๋ฆฌ๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
- ๋ ๋ฒ์งธ ์ ๋ต์ ๊ฑฐ์ง ์์ฑ(False Positive)์ ์ต์ ํจ์ผ๋ก์จ ์ง๋จ ์ ํ๋๋ฅผ ํน์ ์ธก๋ฉด์์ ๊ฐ์ ํฉ๋๋ค. ์ด ์ ๋ต์ ๋ค๋ฅธ, ๋น์๋ฃ ๋๋ฉ์ธ์์๋ LVLMs์ ์ ์ฉํ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ๋ ๊ฐ์ง ์ ๋ต์ ๋งค์ฐ ํฌ์ํ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ณ๋ฆฌ์๋ ํจ๊ณผ์ ์ด์ง ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ๋์ถ, ๊ณจ์ , ํ ๋ณ๋ณ, ํ๋ ด, ๊ธฐํ๊ณผ ๊ฐ์ ๋ณ๋ฆฌ์ ๋ํด ํ ์คํธ ์ค๋ช ์ ์ ๊ณตํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์ ์ ์์ผ๋ฉฐ, ์ด๋ Visual Encoder๊ฐ ์๋ฏธ ์๋ ์๊ฐ์ ํน์ง์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ํ, ์ด๋ฌํ ๋ณ๋ฆฌ๋ฅผ ์ํ Weak-Learner๋ฅผ ์ถฉ๋ถํ ํ๋ จ์ํค๊ธฐ์๋ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์ ์์ต๋๋ค. ๋ฏธ๋ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ํฌ์ ๋ฒ์ฃผ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ ๋ต์ ๊ณ ์ํ๋ ๊ฒ์ด ์ ๋งํ ๋ฐฉํฅ์ ๋๋ค.
์๋ฅผ ๋ค์ด, Retrieval Augmented Generation(RAG) ๋ฐฉ๋ฒ์ด ์ ์ฌ์ ์ธ ํด๊ฒฐ์ฑ ์ด ๋ ์ ์์ต๋๋ค.
๋ณ๋ฆฌ์ ๋ํ ํ ์คํธ ์ค๋ช ๋ฟ๋ง ์๋๋ผ, ์ ํ์ ์ธ ์์ ์ด๋ฏธ์ง๋ ํจ๊ป ์ ๊ณตํ์ฌ ๋ชจ๋ธ์ด ์ง๋จ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ๋์์ ์ค ์ ์์ต๋๋ค.
Pathologies Explain (๋ณ๋ฆฌ ์ค๋ช ) - ๋ถ๋ก
๋ฌด๊ธฐํ(Atelectasis)
๋ฌด๊ธฐํ๋ ํ ๋๋ ํ์ ์ผ๋ถ๊ฐ ๋ถ๋ถ์ ์ผ๋ก ๋๋ ์์ ํ ํํ๋๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
X-ray์์ ๋ฌด๊ธฐํ์ ํน์ง์ ํํ์ ์์ธ๊ณผ ๋ฒ์์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์์ต๋๋ค. ๋ช ๊ฐ์ง ์ผ๋ฐ์ ์ธ X-ray ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํํ๋ก ์ธํด ์ํฅ์ ๋ฐ์ ๋ถ์๊ฐ ์ ์ ํ ์กฐ์ง๋ณด๋ค ๋ ๋ฐ๋๊ฐ ๋๊ฑฐ๋ ํ์๊ฒ ๋ํ๋๋ฉฐ, X-ray์์ ๋ถํฌ๋ช ๋๊ฐ ์ฆ๊ฐํฉ๋๋ค.
- ํํ๋ ํ ๋ถ๋ถ์ด ์ฃผ๋ณ์ ๊ฑด๊ฐํ ํ ์กฐ์ง๊ณผ ๋น๊ตํ์ฌ ๋ ์๊ฑฐ๋ ์์ถ๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์์ต๋๋ค.
- ๋ฌด๊ธฐํ๋ ๊ธฐ๊ด ๋๋ ์ฌ์ฅ๊ณผ ๊ฐ์ ์ฃผ๋ณ ๊ตฌ์กฐ๋ฌผ์ ์ด๋ ๋๋ ๋ณ์๋ฅผ ์ผ์ผ์ผ ์ํฅ์ ๋ฐ์ ๋ถ์๋ก ์ด๋์ํฌ ์ ์์ต๋๋ค.
- ๊ธฐ๋ ํ์์ ์ํด ๋ฐ์ํ๋ ํ์์ฑ ๋ฌด๊ธฐํ์ ๊ฒฝ์ฐ, ์ํฅ์ ๋ฐ์ง ์์ ํ ์์ญ์์ ๊ณผํฝ์ฐฝ์ ์งํ๊ฐ ์์ ์ ์์ผ๋ฉฐ, ํด๋น ๊ธฐ๊ด์ง์ ๋์ ๋๋ ํ์์ด๋ ์ข์์ง์ด ์์ ์ ์์ต๋๋ค.
- ์ ํ ๋๋ ๋ ๋ชจ์์ ๋ถํฌ๋ช ๋๊ฐ ๋ณด์ผ ์ ์์ผ๋ฉฐ, ์ด๋ ์๊ธฐ๋์ ํํ๋ก ์ธํด ๋ฐ์ํ๋ ํ ๋๋ ๋ ๋ฌด๊ธฐํ๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํฉ๋๋ค.
์ฌ๋น๋(Cardiomegaly)
์ฌ๋น๋๋ ์ฌ์ฅ์ ๋น๋๋ฅผ ์๋ฏธํฉ๋๋ค. ์ ์๋ ํ๋ถ ๋ฐฉ์ฌ์ ์ฌ์ง ๋๋ ์ปดํจํฐ ๋จ์ธต์ดฌ์์์ ์ฌ์ฅ ์ค๊ณฝ์ ๊ฐ๋ก ์ง๊ฒฝ์ด ํ๋ถ์ ๊ฐ๋ก ์ง๊ฒฝ์ 50% ์ด์์ธ ๊ฒฝ์ฐ(์ฌ์ฅ ํ๊ณฝ ๋น์จ ์ฆ๊ฐ)์ ๋๋ค.
๋์ถ(Consolidation)
X-ray์์ ๋์ถ์ ํ์ ๊ณต๊ธฐ ๊ณต๊ฐ์ด ์ผ์ฆ์ฑ ์ผ์ถ๋ฌผ ๋๋ ์ธํฌ ๋ฌผ์ง๋ก ์ฑ์์ง๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
๋์ถ์ ์์ฌํ๋ ์ ํ์ ์ธ X-ray ์๊ฒฌ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ํ ์กฐ์ง์์ ๋ฐ๋๊ฐ ์ฆ๊ฐ๋ ์์ญ์ด ๋ํ๋๋ฉฐ, X-ray์์ ๋ถํฌ๋ช ํ๊ฑฐ๋ ํ๋ฆฟํ ๋ถ๋ถ์ผ๋ก ๋ํ๋ฉ๋๋ค.
๋ถ์ข (Edema)
ํ๋ถ์ข ์ ํ์ ์ก์ฒด๊ฐ ์ถ์ ๋๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ช ๊ฐ์ง ์ผ๋ฐ์ ์ธ X-ray ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฐ์ฅ ๋ ๊ฐ ๋ชจ์์ ๋ฎ์ ์ค์ฌ ํ ์์ญ์ ๋ฐ๋ ์ฆ๊ฐ.
- ์ข ์ข ๊ฐ์ง์ฑ ๋ถ์ข ์ ๋ํ๋ด๋ ํ ์ฃผ๋ณ์ ์๊ณ ์ ํ์ ๋ถํฌ๋ช ๋.
- ํ ํ๊ด ๋ด์ ์ฆ๊ฐ๋ก ์ธํ ํ๊ด์ ํ์ฅ์ผ๋ก ์ธํ ๋๋๋ฌ์ง ํ๊ด ํ์.
ํ๋ง ์ผ์ถ(Pleural Effusion)
ํ๋ง ์ผ์ถ์ ๋ฒฝ์ธก ํ๋ง๊ณผ ์ฅ์ธก ํ๋ง ์ฌ์ด์ ์ก์ฒด๊ฐ ์ถ์ ๋๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ช ๊ฐ์ง ์ผ๋ฐ์ ์ธ X-ray ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋๊ณจํก๊ฒฉ๋ง๊ฐ ๋๋ ์ฌ์ฅํก๊ฒฉ๋ง๊ฐ์ ๋ฌด๋ค.
- ์ํ ๋๋ ๊ฒฝ์ฌ ๊ท ์ด ๋ด์ ์ก์ฒด.
- ๋ฐ์ํ ์๊ฒฌ์ด ๋ณด์.
- ์ผ์ถ์ก์ผ๋ก ์ธํด ์ข ๊ฒฉ๋์ด ๋ฐ๋์ชฝ์ผ๋ก ์ด๋.
'๐ Thesis' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Paper Review] When MOE meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications (0) | 2024.09.27 |
---|---|
[Paper Review] VGGNet Code ๊ตฌํ (By PyTorch) (0) | 2024.08.05 |
[Paper Review] VGGnet Review (0) | 2024.08.05 |