A A
[Paper Review] Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering
Large Vision Language Model์„ Medical ๋„๋ฉ”์ธ์— ์—ฐ๊ด€๋œ ๋‚ด์šฉ์„ ๊ณต๋ถ€ํ•ด๋ณด๋‹ค๊ฐ€ ๋…ผ๋ฌธ์„ ์ฝ์–ด์„œ ํ•œ๋ฒˆ ์ •๋ฆฌํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
  • ๋…ผ๋ฌธ ์›๋ฌธ ์‚ฌ์ดํŠธ
 

Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering

Large Vision-Language Models (LVLMs) have achieved significant success in recent years, and they have been extended to the medical domain. Although demonstrating satisfactory performance on medical Visual Question Answering (VQA) tasks, Medical LVLMs (MLVL

arxiv.org


Abstract

LVM(Large Vision-Language Model)์€ ๋ช‡ ๋…„๊ฐ„ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์œผ๋ฉฐ, ์˜๋ฃŒ ๋ถ„์•ผ๋กœ ํ™•์žฅ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Medical Vision Language Model์€ ์˜๋ฃŒ ๊ด€๋ จ ์งˆ๋ฌธ ์‘๋‹ต ์ž‘์—…(Visual Question Answering, VQA)์—์„œ ๋งŒ์กฑํ•  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋‚˜, ํ™˜๊ฐ(hallucination) ๋ฌธ์ œ๋กœ ์ •ํ™•ํ•œ ๋ณ‘๋ฆฌ ์ง„๋‹จ์— ์‹คํŒจํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋˜ํ•œ Training data์˜ ๋ถˆ๊ท ํ˜•์œผ๋กœ ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ(minority pathologies)์— ๊ด€ํ•œ ํ•™์Šต์ด ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์—, MLVLMs(Medical Large Vision Language Model)์˜ ํ™˜๊ฐ์„ ์ค„์ด๊ณ  VQA ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

  1. ์งˆ์˜๋œ ๋ณ‘๋ฆฌ(pathologies)์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ํŠน์ • ์ง€ํ‘œ(metric)์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ์•ฝํ•œ ํ•™์Šต์ž(weak learner)๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ๊ทธ ํŒ๋‹จ์„ ํ† ๋Œ€๋กœ MLVLMs์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

MIMIC-CXR-JPG์™€ Chexpert ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ, F1 ์Šค์ฝ”์–ด๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ๊ฐ€์žฅ ํฐ ์ฆ๊ฐ€ํญ์€ 0.27์ด์—ˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์ด Large Vision Language Model ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

PoPE ์ง€ํ‘œ์— ๋”ฐ๋ฅด๋ฉด, ๊ธฐ์กด Large Vision Language Model์˜ ๊ฑฐ์ง“ ์˜ˆ์ธก์„ ์–ต์ œํ•˜์—ฌ ๋ฆฌ์ฝœ(Recall)์„ 0.07 ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

MIMIC-CXR-JPG์™€ Chexpert ๋ฐ์ดํ„ฐ์…‹?
PoPE ์ง€ํ‘œ?
VM์ด ์˜๋ฃŒ ๋ถ„์•ผ๋กœ ํ™•์žฅ๋จ. MLVLM์ด VQA์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ ํ™˜๊ฐ ๋ฌธ์ œ๋กœ ์ธํ•ด ๋ณ‘๋ฆฌ ์ง„๋‹จ์— ์‹คํŒจํ•  ์ˆ˜ ์žˆ์Œ.
Training data์˜ ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋กœ ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ํ•™์Šต์ด ์–ด๋ ค์›€

Introduction

์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ LLM๋“ค์€ ๊ด‘๋ฒ”์œ„ํ•œ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
→ LLM(Large Language Models)์˜ ์„ฑ๊ณต์€ Vision-Language ๋„๋ฉ”์ธ์œผ๋กœ ํ™•์žฅ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

LVLM(Large Vision Language Models)์€ LLM์— ๊ธฐ๋ฐ˜ํ•œ ์‹œ๊ฐ์  ํŠน์ง•์„ LLM์ด ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์ง•์œผ๋กœ ํˆฌ์‚ฌํ•˜๋Š” ์–ด๋Œ‘ํ„ฐ๋ฅผ ํ›ˆ๋ จํ•˜๊ณ  ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ์งˆ๋ฌธ ์‘๋‹ต ์ž‘์—…(Visual Question Answering, VQA)์€ LVLM์˜ ํ•„์ˆ˜ ๊ธฐ์ˆ ์ด๋ฉฐ, VQA ์ •ํ™•๋„๋Š” ๋ชจ๋ธ์˜ ๋Œ€๋ถ€๋ถ„์˜ ํ…Œ์ŠคํŠธ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

 

LVLM์€ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด Medical VQA ์ž‘์—…์—์„œ ํ…Œ์ŠคํŠธ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ MLVLM(Medical Large Vision Language Model)์€ ์ž…๋ ฅ๋œ ์˜๋ฃŒ ์Šค์บ”์ด ๋‚˜ํƒ€๋‚ด๋Š” ์˜์ƒ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ, ์žฅ๊ธฐ, ์ด์ƒ์— ๊ด€ํ•œ ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ™˜๊ฐ ๋ฌธ์ œ๋Š” LVLM์˜ ์ฃผ์š”ํ•œ ๋ฌธ์ œ๋กœ, ์ž…๋ ฅ๋œ ์ด๋ฏธ์ง€์™€ ๋ชจ์ˆœ๋˜๋Š” ๋‚ด์šฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ํ™˜๊ฐ์€ VQA๋ฅผ ํ†ตํ•ด ์ธก์ • ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์— ์ž…๋ ฅ๋œ ์ด๋ฏธ์ง€์— ๊ฐ์ฒด ์กด์žฌ ์—ฌ๋ถ€์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ํ•˜์—ฌ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋‹ตํ•œ ์งˆ๋ฌธ์˜ ๋น„์œจ๋กœ ํ™˜๊ฐ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

 

VQA๋Š” ์˜๋ฃŒ ์ด๋ฏธ์ง€ ์ง„๋‹จ์— ํ™œ์šฉ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ๋ณ‘๋ฆฌ์— ๊ด€ํ•œ ์งˆ๋ฌธ์„ ํ•˜๊ณ , MLVLM์€ ์˜๋ฃŒ ์˜์ƒ์„ ๋ถ„์„ ํ›„ ๋‹ต๋ณ€ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์…‹์€ ์ด๋ฏธ์ง€์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ, ์ด๋ฏธ์ง€์—์„œ ์žฅ๊ธฐ๋‚˜ ์กฐ์ง์€ ๋ฌด์—‡์ธ์ง€์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์งˆ๋ฌธ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ MLVLM์€ ์•„์ง ๊ด‘๋ฒ”์œ„ํ•œ ๋ณ‘๋ฆฌ์—์„œ VQA ์ •ํ™•๋„๋ฅผ ์ถฉ๋ถ„ํžˆ ํ‰๊ฐ€๋ฐ›์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.

 

์ผ๋ฐ˜์ ์ธ VQA ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋‹ตํ•œ ์งˆ๋ฌธ์˜ ๋น„์œจ๋กœ ํ…Œ์ŠคํŠธ๋˜๋Š”๋ฐ, ์ด๋Š” ์˜๋ฃŒ VQA์— ๋Œ€ํ•œ ์ ํ•ฉํ•œ ์ธก์ • ์ง€ํ‘œ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค.

์˜๋ฃŒ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์ง€ํ‘œ์ธ ์ •๋ฐ€๋„(Precision), ์žฌํ˜„์œจ(Recall), F1 ์Šค์ฝ”์–ด๊ฐ€ ์˜๋ฃŒ VQA ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ LLM/LVLM์˜ ์งˆ๋ฌธ ๋ฐ ๋‹ต๋ณ€์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ์ „๋žต๋“ค์ด ํƒ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๊ณ ์˜ ์—ฐ๊ฒฐ๋ง ํ”„๋กฌํ”„ํŠธ(Chain of Thought Prompting), ์ž๊ธฐ ์ผ๊ด€์„ฑ(Self-Consistency), ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ฆ๊ฐ•(Retrieval-based Augmentation)๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด๋Ÿฌํ•œ ๋ชจ๋“  ๋ฐฉ๋ฒ•๋“ค์€ ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•˜์ง€๋งŒ, ๋น„์šฉ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜๋ฃŒ ๋น„์ „ ์–ธ์–ด ๋ชจ๋ธ์˜ VQA ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์€ ํ•™์Šต์ด ํ•„์š” ์—†๋Š”(training-free) ๋ฐฉ๋ฒ•์ด ๋ฐ”๋žŒ์งํ•ฉ๋‹ˆ๋‹ค.

 

MLVLMs๋Š” ๋ถˆ๊ท ํ˜•ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ์ธํ•œ ํ™˜๊ฐ ํ˜„์ƒ์ด ์•…ํ™”๋ฉ๋‹ˆ๋‹ค. ๋งŽ์€ ๋ณ‘๋ฆฌ๋“ค์€ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์†Œ์ˆ˜์˜ ๋ฒ”์ฃผ์— ์†ํ•ฉ๋‹ˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ํ”ํžˆ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š” ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ํŠน์ง•์„ ํ•™์Šตํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋ฐ์ดํ„ฐ ํŽธํ–ฅ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋” ๋‚˜์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋Š” ์ „๋žต์ด ํ•„์š”ํ•˜์ง€๋งŒ, ๋ถ€์กฑํ•œ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ๋ คํ•  ๋•Œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์€ ์‹คํ˜„ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์–‘์„ฑ ๋ฐ ์Œ์„ฑ ์‚ฌ๋ก€๊ฐ€ ๊ท ํ˜•์„ ์ด๋ฃจ๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ์žฌ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋˜์ง€๋งŒ, ์ด ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ณ‘๋ฆฌ ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ€ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฝ์šฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋˜ํ•œ ์žฌ์ƒ˜ํ”Œ๋ง์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋งŽ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์š”๊ตฌํ•˜๋Š” LVLM์—์„œ๋Š” ํ›ˆ๋ จ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” ๋ฐ์ดํ„ฐ์…‹์—์„œ ์†Œ์ˆ˜์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋น„์šฉ ํšจ์œจ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

 

์ด ์—ฐ๊ตฌ์—์„œ๋Š” MLVLM์˜ VQA ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋‘๋ฉฐ, ํŠนํžˆ ๊ธฐ์กด์˜ MLVLM์ธ LLaVA-Med(Li et al., 2023a)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‰๋ถ€ X-ray VQA์—์„œ 5๊ฐ€์ง€ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ์€ ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•ด ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

 

VQA ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

  1. ์งˆ์˜๋œ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค (์งˆ์˜๋œ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์„ค๋ช… ๋ฐ ์ด๋ฏธ์ง€์— ๋‚˜ํƒ€๋‚˜๋Š” ๋ฐฉ์‹ ํฌํ•จ).
  2. ์•ฝํ•œ ํ•™์Šต์ž ๋ชจ๋ธ์„ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ๋กœ ๋„์ž…ํ•˜์—ฌ ์†Œํ˜• ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ›ˆ๋ จํ•˜๊ณ  ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ๋ถ€์ •์ ์ธ ์ด๋ฏธ์ง€๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์‹๋ณ„ํ•˜๋„๋ก ์กฐ์ •ํ•˜๋ฉฐ, ๋ถ„๋ฅ˜๊ธฐ์˜ ๋ถ€์ •์  ์˜ˆ์ธก์„ ํ”„๋กฌํ”„ํŠธ์— ์ฐธ๊ณ ๋กœ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

MIMIC-CXR-JPG(Goldberger et al., 2000)์™€ Chexpert ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด ๋…ผ๋ฌธ์˜ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์ด ๋Œ€๋ถ€๋ถ„์˜ ๋ณ‘๋ฆฌ ๋ฒ”์ฃผ์—์„œ F1 ์Šค์ฝ”์–ด๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ(์ตœ๋Œ€ +0.27), ์šฐ๋ฆฌ์˜ ์•ฝํ•œ ํ•™์Šต์ž ํ”„๋กฌํ”„ํŠธ ์ „๋žต์ด ์ผ๋ฐ˜ ๋„๋ฉ”์ธ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์ „๋žต์€ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ์˜ LVLM์—์„œ ๋ถ€์ •์  ์˜ˆ์ธก์„ ์ค„์ด๋ฉฐ, POPE ์ง€ํ‘œ(Li et al., 2023c)์— ๋”ฐ๋ฅด๋ฉด ์žฌํ˜„์œจ์„ ์•ฝ 0.07 ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.


Introduction Summary

pathologies์˜ ์ƒ์„ธํ•œ explain์„ prompt๋กœ ์ œ๊ณตํ•˜์—ฌ MLVLMs์˜ VQA ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
LLaVA-Med์˜ ์ฐธ์กฐ๋กœ low-coat์˜ weak-learner Model์„ ๋„์ž…ํ•˜์—ฌ ๊ฑฐ์ง“ ์–‘์„ฑ(FP) ์‘๋‹ต์„ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
๋‘ ๋ฒˆ์งธ prompt strategy์ด ์ผ๋ฐ˜ domain์œผ๋กœ ํ™•์žฅ๋˜์–ด ๋ชจ๋ธ์ด ํŠน์ •ํ•œ accurary ์š”๊ตฌ์— ์ ์‘ํ•˜๋„๋ก ๋•๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์คŒ.

Related Work

LVLMs์™€ VQA

LVLM์€ LLMs ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋˜๋ฉฐ, Pre-trained๋œ Visual Encoder๋Š” ์‹œ๊ฐ์  Feature๋ฅผ ์ถ”์ถœํ•˜๊ณ  Adapter Module์€ ์ถ”์ถœ๋œ Feature๋ฅผ LLM์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” Feature๋กœ ํˆฌ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์œ ํ˜•์˜ ๋ชจ๋ธ์—๋Š” Zhang et al.(2023)์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

Training ์‹œ, Visual Encoder์™€ LLM์€ ๊ณ ์ •(fix)๋ฉ๋‹ˆ๋‹ค. VQA๋Š” LVLMs์˜ ํ•„์ˆ˜ ๊ธฐ์ˆ ๋กœ, Input Image๊ฐ€ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ๋ชจ๋ธ์€ ํ•ด๋‹น ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ Question์— ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋‹ตํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

LVLM VQA์—์„œ์˜ hallucination(ํ™˜๊ฐ)

Hallucination Issue๋Š” LVLM์ด Input Image์™€ ์ผ์น˜ํ•˜์ง€ ์•Š๋Š” ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

VQA์—์„œ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๋‹ต๋ณ€์€ Object์˜ ์กด์žฌ ์—ฌ๋ถ€, ์œ„์น˜, ์†์„ฑ ๋˜๋Š” Object ๊ฐ„ ์ƒํ˜ธ ๊ด€๊ณ„์—์„œ ์˜ค๋ฅ˜๋ฅผ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Li et al.(2023c)์€ LVLMs๊ฐ€ ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” Object๋ฅผ ์‰ฝ๊ฒŒ Hallucinationํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ํ•ด๋‹น Object๊ฐ€ Image์— ์กด์žฌํ•˜์ง€ ์•Š๋”๋ผ๋„ ๋ชจ๋ธ์ด ์ด๋ฅผ ์–ธ๊ธ‰ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

Qian et al.(2024)๊ณผ Liu et al.(2023a)๋Š” LVLMs๊ฐ€ ๋•Œ๋•Œ๋กœ ์งˆ๋ฌธ์˜ ์ „์ œ๋ฅผ ์ฐธ(true)์œผ๋กœ ๊ฐ„์ฃผํ•˜๊ณ , ์ด๋ฏธ์ง€์— ์—†๋Š” Object์— ๋Œ€ํ•ด ์งˆ๋ฌธ์„ ๋ฐ›์„ ๋•Œ ์‰ฝ๊ฒŒ ์ž˜๋ชป๋œ ๋‹ต๋ณ€์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

LVLM VQA ํ™˜๊ฐ์˜ ์›์ธ

Hallucination์€ Data์˜ ํŽธํ–ฅ(Bias), ๋ฏธ์„ธํ•œ Fine-grained Visual Features, LLM Decoding ์ „๋žต์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Data์˜ ํŽธํ–ฅ(Bias)์˜ ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ์˜ ๋ถˆ๊ท ํ˜•ํ•œ ๋ถ„ํฌ๊ฐ€ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

Training Data์— ํŠน์ • ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์ด ๋Œ€๋ถ€๋ถ„ "Yes"์ธ ๊ฒฝ์šฐ, ๋ชจ๋ธ์€ ํ•ด๋‹น ์งˆ๋ฌธ์— "Yes"๋ผ๊ณ  ๋‹ตํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์•„์ง‘๋‹ˆ๋‹ค.

Missing Fine-grained Visual Feature์˜ ๋ถ€์กฑ์€ ์ฃผ๋กœ Visual Encoder์˜ Pretraining์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

 

๋Œ€๋ถ€๋ถ„์˜ LVLMs๋Š” Contrastive Learning(๋Œ€์กฐ ํ•™์Šต)์„ ํ†ตํ•ด Train๋œ CLIP์˜ Visual Encoder๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ด Encoder๋Š” ์ฃผ๋กœ Salient Feature(๋‘๋“œ๋Ÿฌ์ง„ ํŠน์ง•)์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  Fine-grained๋œ Feature๋“ค์„ ๋ฌด์‹œํ•ฉ๋‹ˆ๋‹ค (Jain et al., 2023).

LVLM์˜ Decoding ์ „๋žต์€ ๋Œ€๋ถ€๋ถ„ ์ด์ „์˜ Text์™€ Input Image๋ฅผ ๊ณ ๋ คํ•˜์—ฌ Conditional Probability(์กฐ๊ฑด๋ถ€ ํ™•๋ฅ )๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ๋‹จ์–ด๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด Training Text์— Train๋œ ์ง€์‹์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•  ๋•Œ Hallucination์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐํƒ€ ์›์ธ์œผ๋กœ๋Š” ๋ชจ๋ธ์˜ ๋‹จ์ˆœ์„ฑ ๋ฐ ์ฃผ์˜๋ ฅ ๋ถ€์กฑ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

LVLM VQA Hallucination(ํ™˜๊ฐ) ์™„ํ™”

LVLMs์—์„œ Hallucination(ํ™˜๊ฐ)์„ ์™„ํ™”ํ•˜๋Š” ์ „๋žต์€ Prompt Engineering๊ณผ ๋ชจ๋ธ ๊ฐœ์„ ์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

์ „์ž์˜ ๊ฒฝ์šฐ, Liu et al.(2023a)๋Š” Input Image์˜ Bounding Box ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•ด Visual Instruction(์‹œ๊ฐ ์ง€์นจ)์„ ๋งŒ๋“ค์–ด LLMs๋ฅผ Promptํ•ฉ๋‹ˆ๋‹ค.

 

Zheng et al.(2023)์€ Chain-of-thought Schema(์‚ฌ๊ณ  ๋ฐฉ์‹)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋‹จ๊ณ„์ ์œผ๋กœ Visual-Language ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก Prompt๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์— ๋„๋‹ฌํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Wang et al.(2023)์€ Chain-of-thought Schema๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ๋ฅผ ํ†ตํ•ด ๋‹ต๋ณ€์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

 

Caffagni et al.(2024)์€ ์งˆ๋ฌธ์˜ Term์„ ์„ค๋ช…ํ•˜๋Š” Prompt๋ฅผ ๋ชจ๋ธ์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Hallucination์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๋ชจ๋ธ ๊ฐœ์„  ์ „๋žต๊ณผ ๊ด€๋ จํ•˜์—ฌ, Sun et al.(2023b)๋Š” Reinforcement Learning(๊ฐ•ํ™” ํ•™์Šต)์„ ํ†ตํ•ด Visual Feature์™€ Text Feature์˜ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

 

Leng et al.(2023)์€ Pre-trained๋œ ์ง€์‹์— ๋Œ€ํ•œ ์˜์กด์„ ์ค„์ด๊ธฐ ์œ„ํ•ด Contrastive Decoding(๋Œ€์กฐ ๋””์ฝ”๋”ฉ) ์ „๋žต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

Favero et al.(2024)์™€ Zhao et al.(2024)๋„ Inference(์ถ”๋ก ) ๋‹จ๊ณ„์— ์ค‘์ ์„ ๋‘๊ณ  Hallucination์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ํŠน์ˆ˜ Decoding ์ „๋žต์„ ์ œ์•ˆํ•˜๋ฉฐ, Hallucination์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๋‹ค๋ฅธ ์ „๋žต๋“ค๋„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, Zhou et al.(2024)๋Š” Hallucination๋œ Object๋ฅผ Detectํ•˜๊ณ  ์ƒ์„ฑ๋œ ๋‹ต๋ณ€์„ ์ˆ˜์ •ํ•˜๋Š” Post-processing ๋ชจ๋ธ์„ ์„ค๊ณ„ํ–ˆ์œผ๋ฉฐ, Sun et al.(2023a)๋Š” Human Feedback์„ ํ™œ์šฉํ•œ Reinforcement Learning์„ ์ฑ„ํƒํ•˜์—ฌ Hallucination ์ˆ˜์ค€์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

LVLM Hallucination(ํ™˜๊ฐ) ํ‰๊ฐ€

LVLMs์—์„œ hallucination(ํ™˜๊ฐ)์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ ๋ฐฉ์‹์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  1. ์ฒซ ๋ฒˆ์งธ๋Š” VQA์ž…๋‹ˆ๋‹ค. Input Image์˜ ์ง„์‹ค๋œ Information์„ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€ ๋‚ด Object ์กด์žฌ ์—ฌ๋ถ€์— ๋Œ€ํ•œ ์งˆ๋ฌธ(์˜ˆ: "์ด ์ด๋ฏธ์ง€์— ๊ฒ€์€ ๊ณ ์–‘์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?")๊ณผ ์ด๋ฏธ์ง€์— ์กด์žฌํ•˜์ง€ ์•Š๋Š” Object์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ๋ชจ๋ธ์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋‹ต๋ณ€ํ•œ Question์˜ ๋น„์œจ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์œ ํ˜•์˜ ์ง€ํ‘œ์—๋Š” POPE(Li et al., 2023c), CIEM(Hu et al., 2023), NOPE(Lovenia et al., 2023)๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
  2. ๋‘ ๋ฒˆ์งธ ์ ‘๊ทผ ๋ฐฉ์‹์€ Pre-designed๋œ Prompt๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ Generated Answer๋ฅผ ๋งŒ๋“ค๊ณ  ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์˜ˆ๋กœ๋Š” Generated๋œ Image Caption์—์„œ Hallucination๋œ ๊ฐ์ฒด๋ฅผ Countํ•˜๋Š” CHAIR(Rohrbach et al., 2018), GPT-4(OpenAI et al., 2023)๋ฅผ ์‚ฌ์šฉํ•ด Generated & Human Answer๋ฅผ ๋น„๊ตํ•˜์—ฌ Hallucination Propensity(๊ฒฝํ–ฅ)์„ ํ‰๊ฐ€ํ•˜๋Š” MMHAL-BENCH(Sun et al., 2023b)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

Methodology

LVLM์˜ ๊ตฌ์กฐ

์œ„์˜ ๊ทธ๋ฆผ์€ ์ผ๋ฐ˜์ ์ธ LVLMs์˜ ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” Pre-trained๋œ Unimodal(๋‹จ์ผ๋ชจ๋‹ฌ) LLM์ธ Llama์™€ Vicuna๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. Pre-trained๋œ Visual Encoder, ์˜ˆ๋ฅผ ๋“ค์–ด ViT๋‚˜ ๊ธฐ์กด์˜ CNNs๊ฐ€ Image Feature๋ฅผ ์ถ”์ถœํ•˜๊ณ , Adapter๊ฐ€ ์ด๋Ÿฌํ•œ ํŠน์ง•์„ Text Feature ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

 

ํˆฌ์‚ฌ๋œ Visual Feature๋Š” Text Prompt Embedding๊ณผ ๊ฒฐํ•ฉ๋˜์–ด LLM์— ์ž…๋ ฅ๋ฉ๋‹ˆ๋‹ค.

  • Adapter๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๊ฐœ์˜ Non-linear Activation์ด ํฌํ•จ๋œ Linear Layer๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
  • Visual Encoder์™€ Weight(๊ฐ€์ค‘์น˜)๋Š” Training ์ค‘์— ๊ณ ์ •๋ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š” Pre-Trained๋œ LLaVA-Med(Li et al., 2023a)๋ฅผ ๋ชจ๋ธ๋กœ ์„ ํƒํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” LLaVA(Liu et al., 2023b)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋œ MLVLM์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” Figure 1๊ณผ ์œ ์‚ฌํ•˜๋ฉฐ, Pre-Trained๋œ Vicuna๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , Visual Encoder๋กœ CLIP์—์„œ Pre-Trained๋œ ViT Encoder๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ์—ฌ๊ธฐ์„œ Adapter๋Š” ๋‹จ์ˆœํžˆ Trainable(ํ›ˆ๋ จ ๊ฐ€๋Šฅ)ํ•œ Projection Matrix(ํˆฌ์‚ฌ ํ–‰๋ ฌ)์ž…๋‹ˆ๋‹ค.
  • Visual Encoder์™€ LLM์˜ Weight(๊ฐ€์ค‘์น˜)๋Š” Training ์ค‘์— ๊ณ ์ •๋ฉ๋‹ˆ๋‹ค.

LLaVA-Med๋Š” LLaVA๋ฅผ ๋‘ ๋‹จ๊ณ„์— ๊ฑฐ์ณ์„œ Fine-tuning(๋ฏธ์„ธ ์กฐ์ •)ํ•ฉ๋‹ˆ๋‹ค.

  1. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ๋œ Medical Image๋กœ๋ถ€ํ„ฐ Medical Report๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก LLaVA๋ฅผ Fine-tuningํ•ฉ๋‹ˆ๋‹ค.
  2. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” GPT-4๋ฅผ ์‚ฌ์šฉํ•ด Truth Reports๋กœ๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ Question์„ ์ƒ์„ฑํ•˜๊ณ , ๋ชจ๋ธ์ด Question์— ๋‹ตํ•  ์ˆ˜ ์žˆ๋„๋ก Fine-tuningํ•ฉ๋‹ˆ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ LVLMs๋Š” ํ˜„์žฌ Medical VQA๋ฅผ ํ†ตํ•ด Training๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ Pathologies(๋ณ‘๋ฆฌ)์— ๊ด€๋ จ๋œ ์งˆ๋ฌธ์„ ํ†ตํ•ด Medical ์ง„๋‹จ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด “์ด ์ด๋ฏธ์ง€์— ํ ๋ณ‘๋ณ€์ด ์žˆ์Šต๋‹ˆ๊นŒ?”์™€ ๊ฐ™์€ ์งˆ๋ฌธ์ด ์ด์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.

 

๋ชจ๋ธ์˜ Hallucination์„ ์ค„์ด๊ณ  VQA Accuracy๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, Inference(์ถ”๋ก ) ๋‹จ๊ณ„์—์„œ ๋‘ ๊ฐ€์ง€ ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

  1. ์งˆ์˜๋œ Pathologies(๋ณ‘๋ฆฌ)์— ๊ด€ํ•ด ์ƒ์„ธํ•œ ์„ค๋ช…์„ ๋ชจ๋ธ์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. Weak-learner์˜ Inference(์ถ”๋ก )๋ฅผ ๊ณ ๋ คํ•˜๋„๋ก ๋ชจ๋ธ์— ์š”์ฒญํ•ฉ๋‹ˆ๋‹ค.

์ƒ์„ธ ์„ค๋ช…์„ ํ†ตํ•œ Prompt ์ œ๊ณต

๋ถˆ๊ท ํ˜•ํ•œ training data๋กœ ์ธํ•ด LLVLMs๋Š” ์†Œ์ˆ˜ pathologies(๋ณ‘๋ฆฌ)์˜ ํŠน์ง•์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด inference(์ถ”๋ก ) ๋‹จ๊ณ„์—์„œ Prompt๋กœ ์งˆ์˜๋œ pathologies(๋ณ‘๋ฆฌ)์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์„ค๋ช…์€ pathologies(๋ณ‘๋ฆฌ)๋ฅผ ๊ฐ„๋žตํžˆ ์ •์˜ํ•˜๊ณ , pathologies(๋ณ‘๋ฆฌ)๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” medical image์˜ ๋ช‡ ๊ฐ€์ง€ ์ฃผ์š” ์†Œ๊ฒฌ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋Š” figure 2์— ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค. Model์€ ํ๋ถ€์ข…(Pulmonary Edema)์ด ํ์— ์•ก์ฒด๊ฐ€ ์ถ•์ ๋˜๋Š” ๊ฒƒ์ž„์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ๊ทธ๋‹ค์Œ ํ๋ถ€์ข…์„ ์‹œ์‚ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ช‡ ๊ฐ€์ง€ ํ‰๋ถ€ X-ray ์†Œ๊ฒฌ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

 

Model์€ ์ฃผ์–ด์ง„ image์™€ ์†Œ๊ฒฌ์„ ์—ฐ๊ฒฐํ•˜์—ฌ ์ฃผ์–ด์ง„ image์— ํ๋ถ€์ข…์ด ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค.

Prompt Template์€ ์—ฌ๋Ÿฌ pathologies๋ณ„๋กœ ์ œ๊ณต๋˜๋ฉฐ, ๋ถ€๋ก A์— ์ž์„ธํžˆ ๋‚˜์—ด๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 2: ์˜๋ฃŒ์šฉ VQA๋ฅผ ์œ„ํ•ด MLVLM์„ ์š”์ฒญํ•  ๋•Œ ๋ณ‘๋ฆฌํ•™ ์„ค๋ช…์„ ํฌํ•จํ•˜๋Š” ์˜ˆ.

Q: Pulmonary edema๋Š” ํ์— ์ฒด์•ก์ด ์ถ•์ ๋˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ X-ray ์†Œ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1. ๋ฐ•์ฅ ๋‚ ๊ฐœ ๋ชจ์–‘์„ ๋‹ฎ์€ ์ค‘์‹ฌ ํ ์˜์—ญ์˜ ๋ฐ€๋„ ์ฆ๊ฐ€.
2. ํ ์ฃผ๋ณ€๋ถ€์—์„œ ์–‡๊ณ  ์„ ํ˜•์˜ ๋ถˆํˆฌ๋ช…์„ฑ, ์ข…์ข… ๊ฐ„์งˆ๋ถ€์ข…์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
3. ํํ˜ˆ๊ด€์˜ ์••๋ ฅ ์ฆ๊ฐ€๋กœ ์ธํ•œ ํ˜ˆ๊ด€ ํ™•์žฅ์œผ๋กœ ์ธํ•œ ํ˜ˆ๊ด€ ํ‘œ์‹์˜ ๋‘๋“œ๋Ÿฌ์ง. ์œ„ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ–ˆ์„ ๋•Œ, ์ด ์ด๋ฏธ์ง€์— ๋ถ€์ข…์ด ์žˆ์Šต๋‹ˆ๊นŒ?

A: ์ด ์ด๋ฏธ์ง€์—๋Š” ๋ถ€์ข…์ด ์—†์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 3: weak-learner์˜ ๋ณ‘๋ฆฌํ•™ ์„ค๋ช…๊ณผ ์ฐธ์กฐ ์˜ˆ์ธก์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์—ฌ ์˜๋ฃŒ VQA๋ฅผ ์œ„ํ•œ MLVLM์„ ์ด‰๊ตฌํ•˜๋Š” ์˜ˆ.

Q: Pulmonary edema๋Š” ํ์— ์ฒด์•ก์ด ์ถ•์ ๋˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ X-ray ์†Œ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

1. ๋ฐ•์ฅ ๋‚ ๊ฐœ ๋ชจ์–‘์„ ๋‹ฎ์€ ์ค‘์‹ฌ ํ ์˜์—ญ์˜ ๋ฐ€๋„ ์ฆ๊ฐ€.
2. ํ ์ฃผ๋ณ€๋ถ€์—์„œ ์–‡๊ณ  ์„ ํ˜•์˜ ๋ถˆํˆฌ๋ช…์„ฑ, ์ข…์ข… ๊ฐ„์งˆ๋ถ€์ข…์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
3. ํํ˜ˆ๊ด€์˜ ์••๋ ฅ ์ฆ๊ฐ€๋กœ ์ธํ•œ ํ˜ˆ๊ด€ ํ™•์žฅ์œผ๋กœ ์ธํ•œ ํ˜ˆ๊ด€ ํ‘œ์‹์˜ ๋‘๋“œ๋Ÿฌ์ง. ๋‹ค๋ฅธ ์ „๋ฌธ๊ฐ€๋Š” ์ด ์ด๋ฏธ์ง€์—์„œ ๋ถ€์ข…์˜ ๊ฐ€๋Šฅ์„ฑ์„ 0.1๋กœ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์œ„ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ–ˆ์„ ๋•Œ, ์ด ์ด๋ฏธ์ง€์— ๋ถ€์ข…์ด ์žˆ์Šต๋‹ˆ๊นŒ?

A: ์ด ์ด๋ฏธ์ง€์—๋Š” ๋ถ€์ข…์ด ์—†์Šต๋‹ˆ๋‹ค.

์ƒ์„ธ ์„ค๋ช…๊ณผ Weak-learner๋ฅผ ํ†ตํ•œ Prompt ์ œ๊ณต

Data Re-sampling์€ weak-learner์—์„œ negative prediction์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ์ „ํ†ต์ ์ธ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ๊ฒฝํ–ฅ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์ „๋žต์ž…๋‹ˆ๋‹ค.

Re-sampling๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ precision(์ •๋ฐ€๋„) ๋ฐ recall(์žฌํ˜„์œจ) ์Šค์ฝ”์–ด๊ฐ€ ํ–ฅ์ƒ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์ง€๋งŒ, MLVLMs์— ์ ํ•ฉํ•˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ด์œ  1: ์—ฌ๋Ÿฌ ๋ณ‘๋ฆฌ(pathologies) ๋ฒ”์ฃผ๋ฅผ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ท ํ˜•์„ ์žก๊ธฐ๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  • ์ด์œ  2: MLVLMs๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹์„ ์š”๊ตฌํ•˜๋ฉฐ, ํŒŒ์ธํŠœ๋‹์—๋Š” ๋น„์šฉ์ด ๋งŽ์ด ์†Œ๋ชจ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , MLVLMs๋Š” Resampling๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จ๋œ ์†Œํ˜• ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ด์ ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ Du et al.(2023)๊ณผ ๊ฐ™์€ Multi-Agent LLM ์‹œ์Šคํ…œ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ LLM์ด ์„œ๋กœ ํ† ๋ก ํ•˜๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ถœ๋ ฅ๋ฌผ์„ ์ฐธ์กฐํ•˜์—ฌ ํ™˜๊ฐ(hallucination)์„ ๊ต์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ „ํ†ต์ ์ธ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ๋Š” ๋” ์ž‘๊ธฐ ๋•Œ๋ฌธ์—, ํŠน์ • ๋ณ‘๋ฆฌ์˜ ์žฌ์ƒ˜ํ”Œ๋ง๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จ๋œ ๋‹ค์ˆ˜์˜ ์†Œํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ์„ธ๋ถ„ํ™”๋œ ํŠน์ • ์ธก๋ฉด(์˜ˆ: False Positive(FP) ๋˜๋Š” False Negative(FN)์˜ ๊ฐ์†Œ)์„ ์ตœ์ ํ™”ํ•˜๋„๋ก ํŒŒ์ธํŠœ๋‹ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ถ„๋ฅ˜๊ธฐ๋Š” ์˜๋ฃŒ ์ด๋ฏธ์ง€์— ์ ์šฉ๋˜์–ด ์ดˆ๊ธฐ ์˜ˆ์ธก์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ MLVLM์€ ํŠนํ™”๋œ ๋ชจ๋ธ์ด ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ์„ธ๋ถ€์ ์ธ ์ดํ•ด๋กœ๋ถ€ํ„ฐ ๊ฐ„์ ‘์ ์œผ๋กœ ํ˜œํƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐฉ๋ฒ•์€ ์ž„์ƒ์˜๋“ค์ด ์˜๋ฃŒ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ๋•Œ ๊ณผ์ž‰ ์น˜๋ฃŒ(overtreatment)์™€ ๋ถ€์กฑ ์น˜๋ฃŒ(undertreatment) ๊ฐ„์˜ ๊ท ํ˜•์„ ๋งž์ถฐ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณผ์ž‰ ์น˜๋ฃŒ์˜ ๋น„์šฉ์ด ๋ถ€์กฑ ์น˜๋ฃŒ์˜ ๋น„์šฉ๋ณด๋‹ค ํด ๊ฒฝ์šฐ, ๊ทธ๋“ค์€ ๊ฑฐ์ง“ ์–‘์„ฑ(FP) ๋น„์œจ์ด ๋‚ฎ์€ ๋ชจ๋ธ์„ ์„ ํ˜ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๊ทธ๋ฆผ 3์€ ํ๋ถ€์ข…์˜ ์กด์žฌ์— ๋Œ€ํ•œ ์งˆ์˜ ์˜ˆ์‹œ๋กœ, ๋ชจ๋ธ์ด ํ๋ถ€์ข…(edema)์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, weak-learner๋ฅผ ์‚ฌ์šฉํ•ด ๊ฑฐ์ง“ ์–‘์„ฑ(FP)์„ ์–ต์ œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€๋Š” ๋†’์€ ๋ฏผ๊ฐ๋„์™€ ์ง„์Œ์„ฑ(TN) ๋น„์œจ๋กœ ๊ท ํ˜• ์žกํžŒ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํŒŒ์ธํŠœ๋‹๋œ ํ๋ถ€์ข… ๋ถ„๋ฅ˜๊ธฐ(edema classifier)์— ์ž…๋ ฅ๋ฉ๋‹ˆ๋‹ค.

 

์˜ˆ์ธก์ด ๋ถ€์ •์ ์ธ ๊ฒฝ์šฐ, ๋ณ‘๋ฆฌ ์„ค๋ช… ๋’ค์— "์ด ์ด๋ฏธ์ง€์—์„œ ๋˜ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ๋Š” ํ๋ถ€์ข…์˜ ํ™•๋ฅ ์„ 0.1๋กœ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค."๋ผ๋Š” ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜์‚ฌ ๊ฒฐ์ • ์ž„๊ณ„๊ฐ’(decision threshold)์ด ํŒŒ์ธํŠœ๋‹๋˜์–ด ๋” ์ด์ƒ 0.5๊ฐ€ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹ค์ œ ์˜ˆ์ธก ํ™•๋ฅ  ๋Œ€์‹  ๊ฐ’์„ ์ˆ˜๋™์œผ๋กœ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

 

์—ฌ๊ธฐ์„œ False Positive(FP)๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์˜ ์ „๋žต์€ True Positive(TP)์˜ ๋น„์œจ์„ ๋†’์ด๋„๋ก ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜๊ณ , ๊ธ์ •์ ์ธ ์˜ˆ์ธก์ธ ๊ฒฝ์šฐ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ ์šฉํ•˜์—ฌ False Negative(FN)์˜ ๋น„์œจ์„ ์ค„์ด๋Š” ๋ฐ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


Methodology Summary

๋ชจ๋ธ ๊ตฌ์กฐ:
LLaVA-Med๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ LLM(Vicuna)๊ณผ ์‹œ๊ฐ ์ธ์ฝ”๋”(CLP์˜ ViT)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌ์ถ•๋จ.
์–ด๋Œ‘ํ„ฐ ๋ชจ๋“ˆ์€ ์‹œ๊ฐ์  ํŠน์ง•์„ ํ…์ŠคํŠธ ํŠน์ง•์œผ๋กœ ํˆฌ์‚ฌํ•˜๋ฉฐ, ์‹œ๊ฐ ์ธ์ฝ”๋”์™€ LLM์˜ ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •๋จ.

์—ฐ๊ตฌ ๋ชฉํ‘œ
MLVLMs์˜ VQA ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์„ ์ œ์•ˆ:
1. ์งˆ์˜๋œ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์ƒ์„ธ ์„ค๋ช… ์ œ๊ณต: ๋ณ‘๋ฆฌ์˜ ์ •์˜์™€ ์ฃผ์š” X-ray ์†Œ๊ฒฌ์„ ํฌํ•จํ•˜์—ฌ ๋ชจ๋ธ์ด ๋ฏธ์ฒ˜ ํ•™์Šตํ•˜์ง€ ๋ชปํ•œ ๋ณ‘๋ฆฌ๋ฅผ ์ดํ•ดํ•˜๋„๋ก ๋•๋Š” ์ „๋žต.
2. ์•ฝํ•œ ํ•™์Šต์ž(weak learner) ๋ชจ๋ธ ๋„์ž…: ์†Œํ˜• ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋ถ€์ •์  ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ๋ฐ˜์˜ํ•˜์—ฌ ์ง„๋‹จ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ์ „๋žต.

์‹คํ—˜ ๋ฐ ํ‰๊ฐ€
MIMIC-CXR-JPG์™€ Chexpert ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰.
PT1(๊ธฐ๋ณธ ํ”„๋กฌํ”„ํŠธ), PT2(๋ณ‘๋ฆฌ ์„ค๋ช… ํฌํ•จ ํ”„๋กฌํ”„ํŠธ), PT3(์•ฝํ•œ ํ•™์Šต์ž ํฌํ•จ ํ”„๋กฌํ”„ํŠธ) ์„ธ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์„ ๋น„๊ต.
์•ฝํ•œ ํ•™์Šต์ž๋Š” ๊ฑฐ์ง“ ์–‘์„ฑ(FP)์„ ์ค„์ด๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, PT3 ์ „๋žต์—์„œ F1 ์ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ.

Weak-Learner(์•ฝํ•œ ํ•™์Šต์ž)์ ์šฉ
์•ฝํ•œ ํ•™์Šต์ž๋Š” ResNet50์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ›ˆ๋ จ๋˜๋ฉฐ, ํŠน์ • ๋ณ‘๋ฆฌ์— ๋Œ€ํ•ด ๋ถ€์ •์  ์˜ˆ์ธก์„ ์ œ๊ณตํ•˜์—ฌ FP๋ฅผ ์–ต์ œํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋จ.
LLaVA-Med์˜ ์˜ˆ์ธก ์‘๋‹ต์„ "์˜ˆ/์•„๋‹ˆ์˜ค" ํ˜•ํƒœ๋กœ ์š”์•ฝํ•˜๋Š” ๋ฐ Llama-7B๋ฅผ ์‚ฌ์šฉํ•จ.

์ผ๋ฐ˜ ๋„๋ฉ”์ธ ํ™•์žฅ์„ฑ
์ด ํ”„๋กฌํ”„ํŠธ ์ „๋žต์€ ์˜๋ฃŒ ๋„๋ฉ”์ธ์„ ๋„˜์–ด ์ผ๋ฐ˜ LVLMs์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ๋„ ๊ฑฐ์ง“ ์˜ˆ์ธก์„ ์ค„์ด๊ณ  ์žฌํ˜„์œจ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Œ.

Empirical Study (์‹ค์ฆ ์—ฐ๊ตฌ)

LLaVA-Med๋Š” PMC-15M ๋ฐ์ดํ„ฐ์…‹์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์‚ฌ์ „ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐ์ดํ„ฐ์…‹์—๋Š” CT, MRI, X-ray ๋“ฑ ์—ฌ๋Ÿฌ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” 467,710๊ฐœ์˜ ์ด๋ฏธ์ง€-๋ฆฌํฌํŠธ ์Œ์ด ํ›ˆ๋ จ์— ์„ ํƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ 56,708๊ฐœ์˜ ์งˆ๋ฌธ-๋‹ต๋ณ€ ์Œ์ด ์ƒ์„ฑ๋˜์–ด ๋ชจ๋ธ์„ ์งˆ๋ฌธ ๋ฐ ์‘๋‹ต์— ๋งž์ถฐ ํŒŒ์ธํŠœ๋‹ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํ‘œ 1์€ LLaVA-Med ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ(๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„)์—์„œ ํ…Œ์ŠคํŠธ๋œ 5๊ฐ€์ง€ ๋ณ‘๋ฆฌ ์ค‘ ํ•˜๋‚˜๋กœ ์–‘์„ฑ ์‚ฌ๋ก€๋กœ ์–ธ๊ธ‰๋œ ๋ฆฌํฌํŠธ ์ˆ˜๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ์ด 5๊ฐ€์ง€ ๋ฒ”์ฃผ๊ฐ€ ์†Œ์ˆ˜์— ์†ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

MLVLM์˜ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด MIMIC-CXR-JPG(Goldberger et al., 2000) ๋ฐ Chexpert(Irvin et al., 2019) ํ‰๋ถ€ X-ray ํ…Œ์ŠคํŠธ ์…‹์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • ๊ฐ๊ฐ 5,159๊ฐœ์™€ 668๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๋‘ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘ PMC-15M๊ณผ ์ค‘๋ณต๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

MIMIC-CXR-JPG๋Š” 13๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋‹ค๋ฃจ๋Š” ์ด๋ฏธ์ง€์™€ ์˜๋ฃŒ ๋ฆฌํฌํŠธ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฌด๊ธฐํ(Atelectasis), ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋†์ถ•(Consolidation), ๋ถ€์ข…(Edema), ์‹ฌ๋น„๋Œ€์ฆ(Enlarged Cardiomediastinum), ๊ณจ์ ˆ(Fracture), ํ ๋ณ‘๋ณ€(Lung Lesion), ํ ํ˜ผํƒ(Lung Opacity), ํ‰๋ง‰ ์‚ผ์ถœ(Pleural Effusion), ํ๋ ด(Pneumonia), ๊ธฐํ‰(Pneumothorax), ๊ธฐํƒ€ ํ‰๋ง‰ ๋ณ‘๋ณ€(Pleural Other), ๋ณด์กฐ ์žฅ์น˜(Support Devices) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฆฌํฌํŠธ๋Š” ํŒŒ์‹ฑ๋˜์–ด ๊ทœ์น™ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด ์ž๋™์œผ๋กœ ๋Œ€๋žต์ ์ธ ์ด๋ฏธ์ง€ ์ˆ˜์ค€ ํƒœ๊ทธ๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค(Irvin et al., 2019).

 

๊ฐ ๋ผ๋ฒจ์—๋Š” 4๊ฐ€์ง€ ๊ฐ’์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค: 1(๊ธ์ •์ ), 0(๋ถ€์ •์ ), -1(๋ถˆํ™•์‹คํ•จ), ๋ˆ„๋ฝ. ๊ฐ„๋‹จํžˆ ํ•˜๊ธฐ ์œ„ํ•ด, ์—ฌ๊ธฐ์„œ๋Š” ๋ถˆํ™•์‹คํ•จ๊ณผ ๋ˆ„๋ฝ์„ ๋ถ€์ •์  ๋ผ๋ฒจ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ weak-learner ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด 227,827๊ฐœ์˜ ํ‰๋ถ€ X-ray์™€ ๋ฆฌํฌํŠธ๋ฅผ ํฌํ•จํ•˜๋Š” MIMIC-CXR-JPG ํ›ˆ๋ จ ์…‹์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

Chexpert๋Š” MIMIC-CXR-JPG์™€ ๋™์ผํ•œ 13๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜๋ฃŒ ๋ฆฌํฌํŠธ๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ด๋ฏธ์ง€ ์ˆ˜์ค€ ๋ผ๋ฒจ๋งŒ ์žˆ์Šต๋‹ˆ๋‹ค. MIMIC-CXR-JPG์™€ Chexpert ์‚ฌ์ด์— ์ค‘๋ณต๋˜๋Š” ๋ฐ์ดํ„ฐ๋Š” ์—†์Šต๋‹ˆ๋‹ค.

ํ‘œ 2๋Š” MIMIC-CXR-JPG ๋ฐ Chexpert ํ…Œ์ŠคํŠธ ์…‹์—์„œ ๋ณ‘๋ฆฌ ๋ฒ”์ฃผ(์ •์ƒ์„ ์ œ์™ธํ•œ)์˜ ๋ถ„ํฌ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ฑฐ์˜ ๋ชจ๋“  ๋ณ‘๋ฆฌ ๋ฒ”์ฃผ๋Š” ์–‘์„ฑ(๊ธ์ •์  ๋ฐœ์ƒ)๋ณด๋‹ค ์Œ์„ฑ(๋ถ€์ •์  ๋ฐœ์ƒ)์ด ํ›จ์”ฌ ์ ์€ ์†Œ์ˆ˜ ๋ฒ”์ฃผ์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ํ…Œ์ŠคํŠธ ์ฒด๊ณ„์—์„œ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” Chexpert Competition(Irvin et al., 2019)์—์„œ์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋ณ‘๋ฆฌ, ์ฆ‰ ๋ฌด๊ธฐํ(Atelectasis), ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋†์ถ•(Consolidation), ๋ถ€์ข…(Edema), ์‹ฌ๋น„๋Œ€์ฆ(Enlarged Cardiomediastinum)์„ ์„ ํƒํ•˜์˜€์Šต๋‹ˆ๋‹ค.


๊ตฌํ˜„ ์„ธ๋ถ€ ์‚ฌํ•ญ

์•ž์žฅ์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์šฐ๋ฆฌ๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ LLaVA-Med MLVLM์„ ์ถ”๊ฐ€์ ์ธ fine-tuning ์—†์ด ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Classification ์ž‘์—…์„ VQA ์ž‘์—…์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ํ‘œ 3์˜ ์ฒซ ๋ฒˆ์งธ ํ–‰์— ํ‘œ์‹œ๋œ Prompt Template์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ด๋ฅผ ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ 1(PT1)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

๋จผ์ € PT1์„ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ LLaVA-Med๋ฅผ ์‹คํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์œผ๋กœ, ๋ณ‘๋ฆฌํ•™์  ์„ค๋ช…์„ ํฌํ•จํ•˜์—ฌ(ํ‘œ 3์˜ ๋‘ ๋ฒˆ์งธ ํ–‰) ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ 2(PT2)๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ weak-learner์˜ ์˜ˆ์ธก์„ ํ”„๋กฌํ”„ํŠธ์— ํ†ตํ•ฉํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ 3(PT3)์„ ์™„์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

์‹คํ—˜์„ ํ†ตํ•ด ๊ฒ€์ฆ๋˜์—ˆ๋“ฏ์ด, weak-learner๋Š” False Positive(FP) ์˜ˆ์ธก์„ ์–ต์ œํ•˜๋„๋ก ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ResNet50(He et al., 2016)์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ฐ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•ด ์–‘์„ฑ ์‚ฌ๋ก€์™€ ์Œ์„ฑ ์‚ฌ๋ก€์˜ ๋น„์œจ์ด 2:1์ธ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ์€ ํ•™์Šต๋ฅ  1e-4๋กœ 10๋ฒˆ์˜ epoch ๋™์•ˆ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 

ํ›ˆ๋ จ ๊ณผ์ •์€ AUC ์ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋‹ˆํ„ฐ๋ง๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ€์žฅ ๋†’์€ ๊ฒ€์ฆ AUC๋ฅผ ๊ธฐ๋กํ•œ ๋ชจ๋ธ์„ ์œ ์ง€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ decision threshold(์ž„๊ณ„๊ฐ’) d๋Š” Specificity(ํŠน์ด๋„)์™€ Negative Prediction Value(์Œ์„ฑ ์˜ˆ์ธก ๊ฐ’, NPV)์˜ ๊ฐ€์ค‘ ํ•ฉ์„ ์ตœ์ ํ™”ํ•˜๋„๋ก fine-tuningํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ฆ‰, ๊ฐ€์ค‘์น˜ w1, w2๋Š” ๊ฐ๊ฐ 0.2, 0.8๋กœ ์„ค์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์˜๋ฃŒ ์ด๋ฏธ์ง€๋Š” weak-learner์— ์ž…๋ ฅ๋˜์–ด ๊ฐ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์ดˆ๊ธฐ ์˜ˆ์ธก์„ ์–ป์œผ๋ฉฐ, ์Œ์„ฑ ์˜ˆ์ธก์€ ์„ ํƒ๋˜์–ด PT3 ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

LLaVA-Med๊ฐ€ ๋ฐ˜ํ™˜ํ•œ ์‘๋‹ต์€ "์ด ์ด๋ฏธ์ง€์— ๋ถ€์ข…์ด ์žˆ์Šต๋‹ˆ๋‹ค", "๋ถ€์ข…์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค", "ํ ๋‚ด์˜ ์•ก์ฒด๊ฐ€ ๋ถ€์ข…์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค" ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋ฅผ ์ทจํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธธ์–ด์ง„ ์‘๋‹ต์„ ์˜ˆ/์•„๋‹ˆ์˜ค๋กœ ์š”์•ฝํ•˜๊ธฐ ์œ„ํ•ด Llama-7B(Touvron et al., 2023)๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.


Result

ํ”„๋กฌํ”„ํŠธ ์ „๋žต์˜ ํšจ๋Šฅ์„ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด, PT1 ๊ธฐ์ค€์„ ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๋ณ‘๋ฆฌ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•œ ํ›„(์ „๋žต PT2), ์ดํ›„ Weak-learner๋ฅผ ์ฐธ์กฐํ•˜์—ฌ ํŠน์ • ์ธก๋ฉด์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์ „๋žต PT3์„ ๋„์ถœํ•˜์˜€์Šต๋‹ˆ๋‹ค.

PT2: ๋ณ‘๋ฆฌ ์„ค๋ช… ์ถ”๊ฐ€

ํ‘œ 4๋Š” MIMIC-CXR-JPG ๋ฐ Chexpert ํ…Œ์ŠคํŠธ ์…‹์—์„œ PT1 ๋ฐ PT2 ์ „๋žต์˜ ์ •๋ฐ€๋„(Precision), ์žฌํ˜„์œจ(Recall) ๋ฐ F1 ์Šค์ฝ”์–ด๋ฅผ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. MIMIC-CXR-JPG์—์„œ ๋ณ‘๋ฆฌ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•œ ํ›„, ๋ฌด๊ธฐํ, ์‹ฌ๋น„๋Œ€, ๋ถ€์ข…, ํ‰๋ง‰ ์‚ผ์ถœ์˜ F1 ์ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ–ˆ์œผ๋‚˜, ๋†์ถ•์—์„œ๋Š” ๊ฑฐ์˜ ๋ณ€ํ™”๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

 

Chexpert์—์„œ๋Š” ๋ฌด๊ธฐํ(Atelectasis), ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋ถ€์ข…(Edema)์˜ F1 Score๊ฐ€ ์ฆ๊ฐ€ํ–ˆ์œผ๋‚˜, ๋†์ถ•๊ณผ ํ‰๋ง‰ ์‚ผ์ถœ์—์„œ๋Š” ์ฆ๊ฐ€ํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

 

์ •๋ฐ€๋„ ๋ฐ ์žฌํ˜„์œจ ์ ์ˆ˜๋ฅผ ๋ณด๋ฉด, ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•˜๋ฉด ์žฌํ˜„์œจ์ด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•˜์ง€๋งŒ ์ •๋ฐ€๋„์—๋Š” ๊ฑฐ์˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค.

๋†์ถ•๊ณผ ๊ฐ™์€ ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ์˜ ๊ฒฝ์šฐ F1 ์ ์ˆ˜๊ฐ€ ๋‚ฎ์€ ์ •๋ฐ€๋„์— ์˜ํ•ด ์ง€๋ฐฐ๋˜๋ฏ€๋กœ, ์žฌํ˜„์œจ์„ ๋†’์ด๋Š” ๊ฒƒ์ด ํฐ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ PT2์˜ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ์€ ์ •๋ฐ€๋„์ž…๋‹ˆ๋‹ค.

PT3: Weak-Learner ์ฐธ์กฐ

PT2 ์ „๋žต์„ ๋„˜์–ด, PT3 ์ „๋žต์„ ์ ์šฉํ•˜์—ฌ ์ง„๋‹จ ์ •ํ™•๋„๋ฅผ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

ํ‘œ 5๋Š” Chexpert ํ…Œ์ŠคํŠธ ์…‹์—์„œ PT2 ์ „๋žต์„ ์‚ฌ์šฉํ•˜๋Š” LLaVA-Med์˜ True Positive(TP), False Positive(FP), False Negative(FN) ์˜ˆ์ธก ์ˆ˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์€ FP ์‚ฌ๋ก€๊ฐ€ ๋ˆˆ์— ๋•๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ FP ์˜ˆ์ธก์„ ์–ต์ œํ•˜๋„๋ก Weak-learner๋ฅผ ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

ํ‘œ 6์€ Chexpert์—์„œ Weak-learner๋ฅผ ์ฐธ์กฐํ•˜๊ธฐ ์ „ํ›„์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋ถ€์ข…(Edema), ํ‰๋ง‰ ์‚ผ์ถœ(Pleural Effusion)์˜ F1 ์Šค์ฝ”์–ด๊ฐ€ ๊ฐ๊ฐ 0.115, 0.194, 0.089๋งŒํผ ์ฆ๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

PT3 ์ „๋žต์˜ ํšจ๋Šฅ์„ ๋”์šฑ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด, ํ‘œ 7์€ PT2์™€ PT3 ์ „๋žต์˜ FP ์˜ˆ์ธก์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

Weak-learner์˜ ์˜ˆ์ธก์„ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จํ•จ์œผ๋กœ์จ F1 ์˜ˆ์ธก ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. FP ์‚ฌ๋ก€์˜ ๊ฐ์†Œ๋Š” ํŠนํžˆ ๋ถ€์ข…(Edema)์—์„œ ๋‘๋“œ๋Ÿฌ์ง€๋ฉฐ, FP ์ˆ˜๊ฐ€ 78.5% (322๊ฑด) ๊ฐ์†Œํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ถ”๊ฐ€ VQA ์‹คํ—˜

ํ‘œ 8 ์€ LLaVA-Med์— PT1, PT2, PT3 ์ „๋žต์„ ์ ์šฉํ•˜์—ฌ ํ™•๋Œ€ ์‹ฌ๋น„๋Œ€, ํ ๋ณ‘๋ณ€, ํ ํ˜ผํƒ, ํ๋ ด, ๊ธฐํ‰ ๋“ฑ 5๊ฐ€์ง€ ๋ณ‘๋ฆฌ์—์„œ 
MIMIC-CXR-JPG ๋ฐ Chexpert ๋ฐ์ดํ„ฐ์…‹์„ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํ‘œ 8์€ LLaVA-Med์— PT1, PT2, PT3 ์ „๋žต์„ ์ ์šฉํ•˜์—ฌ ํ™•๋Œ€ ์‹ฌ๋น„๋Œ€, ํ ๋ณ‘๋ณ€, ํ ํ˜ผํƒ, ํ๋ ด, ๊ธฐํ‰ ๋“ฑ 5๊ฐ€์ง€ ๋ณ‘๋ฆฌ์—์„œ MIMIC-CXR-JPG ๋ฐ Chexpert ๋ฐ์ดํ„ฐ์…‹์„ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

 

๋ณ‘๋ฆฌ ์„ค๋ช…(PT2)์„ ์ œ๊ณตํ•˜๋ฉด ์ผ๋ฐ˜์ ์œผ๋กœ PT1 ๊ธฐ์ค€์„ ๋ณด๋‹ค ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ผ๊ด€๋˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. Weak-learner ์ฐธ์กฐ(PT3)๋Š” ์ •๋ฐ€๋„์—์„œ ์ œํ•œ์ ์ธ ์ฆ๊ฐ€๋ฅผ ๊ฐ€์ ธ์˜ค์ง€๋งŒ, ์žฌํ˜„์œจ์—์„œ๋Š” ํฐ ๊ฐ์†Œ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ํฐ ๊ฐœ์„ ์€ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

 

ํ™•๋Œ€ ์‹ฌ๋น„๋Œ€, ํ ๋ณ‘๋ณ€, ํ๋ ด, ๊ธฐํ‰์€ ์†Œ์ˆ˜ ๋ฒ”์ฃผ์ด๋ฉฐ, ์‹คํ—˜ ์„ค์ •๊ณผ Weak-learner๋ฅผ ํฌํ•จํ•˜์—ฌ ์ด๋ฅผ ํ•™์Šตํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๋Š” ์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ ํฐ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

SOTA Benchmark

Tiu et al.(2022)๋Š” Chexpert ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด๊ธฐํ, ์‹ฌ๋น„๋Œ€, ๋†์ถ•, ๋ถ€์ข…, ํ‰๋ง‰ ์‚ผ์ถœ์„ ๊ฐ์ง€ํ•˜๋Š” ๋ฐ ์žˆ์–ด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ ๋ฐฉ์‚ฌ์„  ์ „๋ฌธ์˜์˜ ์„ฑ๋Šฅ์„ F1 ์Šค์ฝ”์–ด๋กœ ๋ณด๊ณ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ด๋Š” ํ‰๋ถ€ X-ray ์ง„๋‹จ์˜ ์ตœ์‹  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํ‘œ 9๋Š” ๋ฐฉ์‚ฌ์„  ์ „๋ฌธ์˜, Tiu et al.(2022)์˜ ๋ชจ๋ธ, LLaVA-Med์˜ F1 ์Šค์ฝ”์–ด๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. LLaVA-Med์˜ VQA ์„ฑ๋Šฅ์€ PT1 ๊ธฐ์ค€ ์ „๋žต์—์„œ ๋ถˆ๋งŒ์กฑ์Šค๋Ÿฌ์›Œ, ๋ชจ๋ธ์ด ์ž„์ƒ ์‹ค๋ฌด์— ๋ฐฐํฌ๋˜๊ธฐ์—๋Š” ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ‰๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋ฐฉ์‚ฌ์„  ์ „๋ฌธ์˜๋ณด๋‹ค ์—ฌ์ „ํžˆ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€์ง€๋งŒ, ์šฐ๋ฆฌ์˜ PT3 ์ „๋žต์€ ํŠนํžˆ ๋ฌด๊ธฐํ, ์‹ฌ๋น„๋Œ€, ๋ถ€์ข…์—์„œ F1 ์Šค์ฝ”์–ด๊ฐ€ ์•ฝ 17%์—์„œ 21% ์ฆ๊ฐ€ํ•˜๋ฉด์„œ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค

์ผ๋ฐ˜ ๋„๋ฉ”์ธ LVLMs์—์˜ ์ ์šฉ

ํ”„๋กฌํ”„ํŠธ ์ „๋žต์€ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ LVLMs์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

LLaVA(Liu et al., 2023b) ๋ฐ MiniGPT-v2(Zhu et al., 2023)์˜ POPE ์ง€ํ‘œ(Li et al., 2023c)๋ฅผ ์‚ฌ์šฉํ•œ ์„ฑ๋Šฅ์„ ์—ฐ๊ตฌํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” LVLMs์˜ ํ™˜๊ฐ(hallucination)์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ์ฒด ์กด์žฌ ์—ฌ๋ถ€์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ๋ฌป๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

 

LLaVA ๋ฐ MiniGPT-v2์˜ POPE ์Šค์ฝ”์–ด๋Š” ๋†’์€ ์ •๋ฐ€๋„์™€ ๋‚ฎ์€ ์žฌํ˜„์œจ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ Weak-learner ์ „๋žต์€ False Negative ์˜ˆ์ธก์„ ์ค„์ด๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ Fast-RCNN(Girshick, 2015)์„ Weak-learner๋กœ ์„ ํƒํ•˜๊ณ , ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ ์ˆ˜์˜ ์ž„๊ณ„๊ฐ’์„ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ๋†’์€ ์žฌํ˜„์œจ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, Weak-learner์˜ ๊ธ์ •์  ์˜ˆ์ธก์„ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

ํ‘œ 10์˜ ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐ€์ง€ POPE ๋ฒ”์ฃผ์—์„œ ์žฌํ˜„์œจ ์ ์ˆ˜๊ฐ€ ์•ฝ 7% ์ฆ๊ฐ€(์ •๋ฐ€๋„ ์ ์ˆ˜๋Š” ์•ฝ๊ฐ„ ๊ฐ์†Œ)ํ•˜์—ฌ F1 ์Šค์ฝ”์–ด๊ฐ€ ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


Empirical Study (์‹ค์ฆ ์—ฐ๊ตฌ) Summary

4.1 ๋ฐ์ดํ„ฐ์…‹
LLaVA-Med๋Š” PMC-15M ๋ฐ์ดํ„ฐ์…‹์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จ๋จ. MIMIC-CXR-JPG์™€ Chexpert ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด MLVLM์˜ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•จ. ์ฃผ์š” ํ…Œ์ŠคํŠธ ๋ณ‘๋ฆฌ๋กœ ๋ฌด๊ธฐํ(Atelectasis), ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋†์ถ•(Consolidation), ๋ถ€์ข…(Edema), ํ‰๋ง‰ ์‚ผ์ถœ(Pleural Effusion)์„ ์„ ํƒํ•จ.

4.2 ๊ตฌํ˜„ ์„ธ๋ถ€ ์‚ฌํ•ญ
LLaVA-Med๋Š” ์ถ”๊ฐ€ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ์„ธ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ(PT1, PT2, PT3)์œผ๋กœ ํ…Œ์ŠคํŠธ๋จ. PT1: ๊ธฐ๋ณธ ํ”„๋กฌํ”„ํŠธ, PT2: ๋ณ‘๋ฆฌ ์„ค๋ช…์„ ํฌํ•จํ•œ ํ”„๋กฌํ”„ํŠธ, PT3: ์•ฝํ•œ ํ•™์Šต์ž ์˜ˆ์ธก์„ ํฌํ•จํ•œ ํ”„๋กฌํ”„ํŠธ. ์•ฝํ•œ ํ•™์Šต์ž๋Š” ResNet50 ๊ธฐ๋ฐ˜์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ๊ฑฐ์ง“ ์–‘์„ฑ(FP)์„ ์ค„์ด๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถค.

4.3 ๊ฒฐ๊ณผ
PT2: ๋ณ‘๋ฆฌ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•œ ํ›„, ์ผ๋ถ€ ๋ณ‘๋ฆฌ์—์„œ F1 ์ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ–ˆ์ง€๋งŒ, ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ์—์„œ๋Š” ํฐ ํšจ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์Œ. PT3: ์•ฝํ•œ ํ•™์Šต์ž ์˜ˆ์ธก์„ ํ†ตํ•ฉํ•œ ํ›„, F1 ์ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ์‹ฌ๋น„๋Œ€(Cardiomegaly), ๋ถ€์ข…(Edema), ํ‰๋ง‰ ์‚ผ์ถœ(Pleural Effusion)์—์„œ ํฐ ๊ฐœ์„ ์ด ์žˆ์—ˆ์Œ.

์ถ”๊ฐ€ VQA ์‹คํ—˜์—์„œ๋Š” PT3 ์ „๋žต์ด ์ผ๋ถ€ ๋ณ‘๋ฆฌ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ๋ณ‘๋ฆฌ์—์„œ๋Š” ํฐ ๋ณ€ํ™”๊ฐ€ ์—†์—ˆ์Œ. SOTA Benchmark์™€์˜ ๋น„๊ต์—์„œ, PT3 ์ „๋žต์ด ์ ์šฉ๋œ LLaVA-Med๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์œผ๋‚˜, ์—ฌ์ „ํžˆ ๋ฐฉ์‚ฌ์„  ์ „๋ฌธ์˜์˜ ์„ฑ๋Šฅ์—๋Š” ๋ฏธ์น˜์ง€ ๋ชปํ•จ. ์ผ๋ฐ˜ ๋„๋ฉ”์ธ LVLMs์—๋„ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์ด ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, POPE ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์žฌํ˜„์œจ์ด ์•ฝ 0.07 ํ–ฅ์ƒ๋จ.

Conclusion & Discussion

LLaVA-Med ์˜๋ฃŒ ๋Œ€๊ทœ๋ชจ Vision-Language Model์˜ ์‹œ๊ฐ ์งˆ๋ฌธ ์‘๋‹ต(VQA) ๋Šฅ๋ ฅ์„ ๋ณ‘๋ฆฌ ์ง„๋‹จ์— ์ ์šฉํ•˜์—ฌ ํ…Œ์ŠคํŠธํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ณ‘๋ฆฌ์˜ ์กด์žฌ ์—ฌ๋ถ€๋ฅผ ๋ฌป๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋งŒ์กฑ์Šค๋Ÿฝ์ง€ ์•Š์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

 

๋ชจ๋ธ์˜ Vision-Question-Answer ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ์ „๋žต์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•˜๋Š” ์ „๋žต๊ณผ Weak-Learner(์•ฝํ•œ ํ•™์Šต์ž)์˜ ์˜ˆ์ธก์„ ์ฐธ์กฐํ•˜๋Š” ์ „๋žต์ž…๋‹ˆ๋‹ค.

  1. ์ฒซ ๋ฒˆ์งธ ์ „๋žต์€ ๋ชจ๋ธ์ด ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•œ ์†Œ์ˆ˜ ๋ณ‘๋ฆฌ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
  2. ๋‘ ๋ฒˆ์งธ ์ „๋žต์€ ๊ฑฐ์ง“ ์–‘์„ฑ(False Positive)์„ ์–ต์ œํ•จ์œผ๋กœ์จ ์ง„๋‹จ ์ •ํ™•๋„๋ฅผ ํŠน์ • ์ธก๋ฉด์—์„œ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ „๋žต์€ ๋‹ค๋ฅธ, ๋น„์˜๋ฃŒ ๋„๋ฉ”์ธ์—์„œ๋„ LVLMs์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋‘ ๊ฐ€์ง€ ์ „๋žต์€ ๋งค์šฐ ํฌ์†Œํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๋ณ‘๋ฆฌ์—๋Š” ํšจ๊ณผ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ๋†์ถ•, ๊ณจ์ ˆ, ํ ๋ณ‘๋ณ€, ํ๋ ด, ๊ธฐํ‰๊ณผ ๊ฐ™์€ ๋ณ‘๋ฆฌ์— ๋Œ€ํ•ด ํ…์ŠคํŠธ ์„ค๋ช…์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” Visual Encoder๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ์‹œ๊ฐ์  ํŠน์ง•์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

 

๋˜ํ•œ, ์ด๋Ÿฌํ•œ ๋ณ‘๋ฆฌ๋ฅผ ์œ„ํ•œ Weak-Learner๋ฅผ ์ถฉ๋ถ„ํžˆ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ์—๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํฌ์†Œ ๋ฒ”์ฃผ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์ „๋žต์„ ๊ณ ์•ˆํ•˜๋Š” ๊ฒƒ์ด ์œ ๋งํ•œ ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, Retrieval Augmented Generation(RAG) ๋ฐฉ๋ฒ•์ด ์ž ์žฌ์ ์ธ ํ•ด๊ฒฐ์ฑ…์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณ‘๋ฆฌ์— ๋Œ€ํ•œ ํ…์ŠคํŠธ ์„ค๋ช…๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ „ํ˜•์ ์ธ ์˜ˆ์‹œ ์ด๋ฏธ์ง€๋„ ํ•จ๊ป˜ ์ œ๊ณตํ•˜์—ฌ ๋ชจ๋ธ์ด ์ง„๋‹จ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ๋ฐ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


Pathologies Explain (๋ณ‘๋ฆฌ ์„ค๋ช…) - ๋ถ€๋ก

๋ฌด๊ธฐํ(Atelectasis)

๋ฌด๊ธฐํ๋Š” ํ ๋˜๋Š” ํ์˜ ์ผ๋ถ€๊ฐ€ ๋ถ€๋ถ„์ ์œผ๋กœ ๋˜๋Š” ์™„์ „ํžˆ ํ—ˆํƒˆ๋˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

X-ray์—์„œ ๋ฌด๊ธฐํ์˜ ํŠน์ง•์€ ํ—ˆํƒˆ์˜ ์›์ธ๊ณผ ๋ฒ”์œ„์— ๋”ฐ๋ผ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ X-ray ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ํ—ˆํƒˆ๋กœ ์ธํ•ด ์˜ํ–ฅ์„ ๋ฐ›์€ ๋ถ€์œ„๊ฐ€ ์ •์ƒ ํ ์กฐ์ง๋ณด๋‹ค ๋” ๋ฐ€๋„๊ฐ€ ๋†’๊ฑฐ๋‚˜ ํ•˜์–—๊ฒŒ ๋‚˜ํƒ€๋‚˜๋ฉฐ, X-ray์—์„œ ๋ถˆํˆฌ๋ช…๋„๊ฐ€ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  2. ํ—ˆํƒˆ๋œ ํ ๋ถ€๋ถ„์ด ์ฃผ๋ณ€์˜ ๊ฑด๊ฐ•ํ•œ ํ ์กฐ์ง๊ณผ ๋น„๊ตํ•˜์—ฌ ๋” ์ž‘๊ฑฐ๋‚˜ ์••์ถ•๋œ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ฌด๊ธฐํ๋Š” ๊ธฐ๊ด€ ๋˜๋Š” ์‹ฌ์žฅ๊ณผ ๊ฐ™์€ ์ฃผ๋ณ€ ๊ตฌ์กฐ๋ฌผ์˜ ์ด๋™ ๋˜๋Š” ๋ณ€์œ„๋ฅผ ์ผ์œผ์ผœ ์˜ํ–ฅ์„ ๋ฐ›์€ ๋ถ€์œ„๋กœ ์ด๋™์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. ๊ธฐ๋„ ํ์ƒ‰์— ์˜ํ•ด ๋ฐœ์ƒํ•˜๋Š” ํ์ƒ‰์„ฑ ๋ฌด๊ธฐํ์˜ ๊ฒฝ์šฐ, ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์€ ํ ์˜์—ญ์—์„œ ๊ณผํŒฝ์ฐฝ์˜ ์ง•ํ›„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ•ด๋‹น ๊ธฐ๊ด€์ง€์— ๋ˆˆ์— ๋„๋Š” ํ์ƒ‰์ด๋‚˜ ์ข์•„์ง์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  5. ์„ ํ˜• ๋˜๋Š” ๋  ๋ชจ์–‘์˜ ๋ถˆํˆฌ๋ช…๋„๊ฐ€ ๋ณด์ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์†Œ๊ธฐ๋„์˜ ํ—ˆํƒˆ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ํŒ ๋˜๋Š” ๋  ๋ฌด๊ธฐํ๋ผ๊ณ  ๋ถˆ๋ฆฌ๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

์‹ฌ๋น„๋Œ€(Cardiomegaly)

์‹ฌ๋น„๋Œ€๋Š” ์‹ฌ์žฅ์˜ ๋น„๋Œ€๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ •์˜๋Š” ํ‰๋ถ€ ๋ฐฉ์‚ฌ์„  ์‚ฌ์ง„ ๋˜๋Š” ์ปดํ“จํ„ฐ ๋‹จ์ธต์ดฌ์˜์—์„œ ์‹ฌ์žฅ ์œค๊ณฝ์˜ ๊ฐ€๋กœ ์ง๊ฒฝ์ด ํ‰๋ถ€์˜ ๊ฐ€๋กœ ์ง๊ฒฝ์˜ 50% ์ด์ƒ์ธ ๊ฒฝ์šฐ(์‹ฌ์žฅ ํ‰๊ณฝ ๋น„์œจ ์ฆ๊ฐ€)์ž…๋‹ˆ๋‹ค.

๋†์ถ•(Consolidation)

X-ray์—์„œ ๋†์ถ•์€ ํ์˜ ๊ณต๊ธฐ ๊ณต๊ฐ„์ด ์—ผ์ฆ์„ฑ ์‚ผ์ถœ๋ฌผ ๋˜๋Š” ์„ธํฌ ๋ฌผ์งˆ๋กœ ์ฑ„์›Œ์ง€๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๋†์ถ•์„ ์‹œ์‚ฌํ•˜๋Š” ์ „ํ˜•์ ์ธ X-ray ์†Œ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ํ ์กฐ์ง์—์„œ ๋ฐ€๋„๊ฐ€ ์ฆ๊ฐ€๋œ ์˜์—ญ์ด ๋‚˜ํƒ€๋‚˜๋ฉฐ, X-ray์—์„œ ๋ถˆํˆฌ๋ช…ํ•˜๊ฑฐ๋‚˜ ํ๋ฆฟํ•œ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค.

๋ถ€์ข…(Edema)

ํ๋ถ€์ข…์€ ํ์— ์•ก์ฒด๊ฐ€ ์ถ•์ ๋˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ X-ray ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋ฐ•์ฅ ๋‚ ๊ฐœ ๋ชจ์–‘์„ ๋‹ฎ์€ ์ค‘์‹ฌ ํ ์˜์—ญ์˜ ๋ฐ€๋„ ์ฆ๊ฐ€.
  2. ์ข…์ข… ๊ฐ„์งˆ์„ฑ ๋ถ€์ข…์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ ์ฃผ๋ณ€์˜ ์–‡๊ณ  ์„ ํ˜•์˜ ๋ถˆํˆฌ๋ช…๋„.
  3. ํ ํ˜ˆ๊ด€ ๋‚ด์•• ์ฆ๊ฐ€๋กœ ์ธํ•œ ํ˜ˆ๊ด€์˜ ํ™•์žฅ์œผ๋กœ ์ธํ•œ ๋‘๋“œ๋Ÿฌ์ง„ ํ˜ˆ๊ด€ ํ‘œ์‹.

ํ‰๋ง‰ ์‚ผ์ถœ(Pleural Effusion)

ํ‰๋ง‰ ์‚ผ์ถœ์€ ๋ฒฝ์ธก ํ‰๋ง‰๊ณผ ์žฅ์ธก ํ‰๋ง‰ ์‚ฌ์ด์— ์•ก์ฒด๊ฐ€ ์ถ•์ ๋˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ X-ray ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋Š‘๊ณจํšก๊ฒฉ๋ง‰๊ฐ ๋˜๋Š” ์‹ฌ์žฅํšก๊ฒฉ๋ง‰๊ฐ์˜ ๋ฌด๋”ค.
  2. ์ˆ˜ํ‰ ๋˜๋Š” ๊ฒฝ์‚ฌ ๊ท ์—ด ๋‚ด์˜ ์•ก์ฒด.
  3. ๋ฐ˜์›”ํ˜• ์†Œ๊ฒฌ์ด ๋ณด์ž„.
  4. ์‚ผ์ถœ์•ก์œผ๋กœ ์ธํ•ด ์ข…๊ฒฉ๋™์ด ๋ฐ˜๋Œ€์ชฝ์œผ๋กœ ์ด๋™.