LLM์์ MOE ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ Medical Domain์์ Task๋ฅผ ์ํํ๋ Reference๋ฅผ ์ฐพ์๋ณด๋ฉด์ ๋ ผ๋ฌธ์ ์ฝ์ ๋ด์ฉ์ ์ ๋ฆฌํด ๋ณด๋ ค๊ณ ํฉ๋๋ค.
- ๋ ผ๋ฌธ ์๋ฌธ ์ฌ์ดํธ
Abstract
์ต๊ทผ Large Language Models (LLMs)์ ๊ธ๊ฒฉํ ์ฆ๊ฐ๊ฐ ์ฌ๋ฌ ๋ถ์ผ์์ ํฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ต๋๋ค.
Fine-tuning์ ์น ๊ธฐ๋ฐ healthcare system๊ณผ ๊ฐ์ ํน์ ๋๋ฉ์ธ์ ์ผ๋ฐ LLMs์ ์ ์ฉํ๊ธฐ ์ํด ์ข ์ข ํ์ํฉ๋๋ค.
๊ทธ๋ฌ๋ ์๋ฃ ์์ฉ ๋ถ์ผ์์ LLMs๋ฅผ fine-tuningํ๋ ๊ณผ์ ์์ ๋ ๊ฐ์ง ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
์ฒซ ๋ฒ์งธ๋ task variety ๋ฌธ์ ๋ก, ์ด๋ ์ค์ ์๋ฃ ์๋๋ฆฌ์ค์์ ๋ค์ํ ์์ ์ด ํฌํจ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ์ด๋ฌํ ๋ค์์ฑ์ data imbalance ๋ฐ seesaw ๋ฌธ์ ๋ก ์ธํด sub-optimal fine-tuning์ ์ด๋ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
๋ ๋ฒ์งธ๋ก, LLMs์ ๋๊ท๋ชจ ๋งค๊ฐ๋ณ์๋ fine-tuning์ ๋ง์ ์๊ฐ๊ณผ computation ์์์ ์๊ตฌํฉ๋๋ค.
- ์ด๋ฌํ ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ MOELoRA๋ก ๋ช ๋ช ๋ multi-task ์๋ฃ ์์ฉ์ ์ํ ์๋ก์ด parameter efficient fine-tuning framework๋ฅผ ์ ์ํฉ๋๋ค.
์ค๊ณ๋ framework๋ multi-task learning์ ์ํ mixture-of-expert (MOE)์ ์ด์ ๊ณผ low-rank adaptation (LoRA) parameter efficient fine-tuning์ ์ด์ ์ ๋ชจ๋ ํก์ํ๋๋ก ๋ชฉํ๋ก ํฉ๋๋ค.
MOE์ LoRA๋ฅผ ํตํฉํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ trainable parameter๋ก์ ์ฌ๋ฌ expert๋ฅผ ๊ณ ์ํ์ผ๋ฉฐ, ๊ฐ expert๋ trainable parameter์ ์ํ ํฌ๊ธฐ๋ฅผ ์ ์งํ๊ธฐ ์ํด low-rank matrix์ ์ผ๋ถ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๊ทธ๋ฐ ๋ค์, ๋ชจ๋ MOELoRA layer์ ๋ํด task-motivated gate function์ ์ ์ํ์ฌ ๊ฐ expert์ ๊ธฐ์ฌ๋๋ฅผ ์ ์ดํ๊ณ ๋ค์ํ task๋ฅผ ์ํ distinct parameter๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
Introduction
๋ฐ๋ผ์, ์ด ๋ ผ๋ฌธ์์๋ open-source LLMs์ ์๋ฃ ์ง์ ๋ฐ ์์ ์์ ์ ๋ํ fine-tuning์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
์๋ฃ ๋๋ฉ์ธ์ ๋ํ LLMs์ fine-tuning์ ๋ ๊ฐ์ง ์ฃผ์ ๋์ ๊ณผ์ ๋ฅผ ํฌํจํฉ๋๋ค.
- Task Variety Problem: ์ค์ ํด๋ฆฌ๋์์ LLMs๋ doctor recommendation, diagnosis prediction, medicine recommendation, medical named entity recognition , clinical report generation๋ฑ์ ๋ค์ํ ์์ ์ ์ ์ฉ๋ ์ ์์ต๋๋ค.
- High Tuning Cost: fine-tuning์ด ํ์ค ์ ๊ทผ ๋ฐฉ์์ด์๋ BERT ์๋ ๋์์๋, LLMs์ ๋งค๊ฐ๋ณ์ ์๊ฐ ๋๋ฌด ๋ง์์ ๋์ ๊ณผ์ ๊ฐ ๋์์ต๋๋ค.
Task variety ๋ฌธ์ ์ ๊ด๋ จํ์ฌ, ์ฌ๋ฌ multi-task ํ์ต ํ๋ ์์ํฌ๊ฐ ์ ์๋์์ต๋๋ค.
๊ทธ ์ค์์๋ Mixture-of-Experts (MOE)๋ standout ์ค ํ๋๋ก, ์ด๋ task-shared์ task-specific ์ง์์ ํ์ตํ๊ธฐ ์ํด ์ ๋ฌธ๊ฐ๋ฅผ ๋ถ๋ฆฌํ์ฌ ์ฌ์ฉํ๊ณ , ์ ๋ฌธ๊ฐ ๊ธฐ์ฌ๋๋ฅผ ์กฐ์ ํ๋ gate function์ ํตํฉํ์ฌ task ๊ฐ์ ๊ท ํ์ ์ ์งํฉ๋๋ค.
์ต๊ทผ parameter efficient fine-tuning (PEFT) ๋ฐฉ๋ฒ๋ก ์ด ์ด๋ฌํ ๋์ fine-tuning ๋น์ฉ ๋ฌธ์ ์ ๋ํ ์ ์ฌ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ๊ณตํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ์์ ์๊ฐ ์๋ชจ์ ์ด๊ณ ์ง์ ๊ณต์ ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ํ, fine-tuning์ด ๊ฐ๋ฅํ ์์ ํ๋ผ๋ฏธํฐ ์ ์ด๋ผ ํ ์ง๋ผ๋, ๋ฐ์ดํฐ ๋ถ๊ท ํ๊ณผ seesaw ๋ฌธ์ ๋ก ์ธํด ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
์ด๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ค๊ตญ์ ์๋ฃ ๋ฐ์ดํฐ์ ๊ณผ ํด๋น ๋ฐ์ดํฐ์ ์ ์ํ ๋ถํฌ๋ฅผ Figure 1์ ๋ถ์ํ์์ต๋๋ค
๋ฐ๋ผ์, unique training process๋ฅผ ํตํด separate parameters๋ฅผ ์ฌ์ฉํ๋ multi-task parameter efficient fine-tuning์ด ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ ์ ์์ต๋๋ค.
Task variety์ high tuning costs์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ฌ๋ฌ ์์ ์ ๋ํด ๋ณ๋์ ํ๋ผ๋ฏธํฐ efficient fine-tuning ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ LoRA์ ๊ธฐ๋ณธ์ ์ธ parameter efficiency scheme์ ์ฑํํ์์ผ๋ฉฐ, ์ฆ, dense layers์ parallelํ ์์ parameter ์ ๋ง fine-tuningํฉ๋๋ค.
์ด๋, ์ฐ๋ฆฌ๋ MOELoRA๋ฅผ ์๊ฐํฉ๋๋ค. ์ด๋ MOE์ LoRA์ ๊ฐ์ ์ ๊ฒฐํฉํ ์๋ก์ด multi-task PEFT framework์ ๋๋ค. ๋ํ, ์ฐ๋ฆฌ๋ ๊ฐ task์ ๋ํด distinct parameters๋ฅผ ์์ฑํ๊ธฐ ์ํด task-motivated gate function์ ์ค๊ณํ์ต๋๋ค.
PRELIMINARY
LLMs for Medical Applications
์ง๋ฅํ ์๋ฃ ์์คํ ์ ํ๋์ ์น ๊ธฐ๋ฐ ์๋ฃ ํ๊ฒฝ์์ ์ ์ ๋ ๋ณดํธํ๋๊ณ ์์ต๋๋ค
๋ง์ ์ฐ๊ตฌ๋ค์ ์ผ๊ด๋ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ํจํด์ ์ ์ํ์ฌ ์๋ฃ ์์ ์ ํ์คํํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ ์ค๊ณ ๊ณผ์ ์ ๊ฐ์ํํ๊ณ ์์ต๋๋ค.
์์ ์ ์๋ ์๋ฃ named entity recognition (NER)์ ์์์ ๊ฐ์ด, ์ ํต์ ์ธ ๋ชจ๋ธ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์๋ฃ ํ ์คํธ, ์ฆ IMI์ ์ฒ๋ฆฌํ์ฌ head entities Ohead์ tail entities Otail๋ฅผ ์์ฑํฉ๋๋ค.
์๋ฃ ์์ ์ LLMs์ ์ ์์ํค๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ํจํด ๋ชจ๋๋ฅผ ์ฌ๊ตฌ์ฑํด์ผ ํฉ๋๋ค.
- Input Modification: ์ฐ๋ฆฌ๋ LLMs๊ฐ ์๋ฃ ํ ์คํธ๋ฅผ ์คํํ ์ ์๋๋ก ์๋ ์๋ฃ ํ ์คํธ์ instruction templates๋ฅผ ํตํฉํฉ๋๋ค. Figure 2์์ ์์๋ ๋ฐ์ ๊ฐ์ด, template๋ฅผ ์์ ํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ๋ง๋ญ๋๋ค:
- "Please recognize the medical entity in this sentence: [Medical Text]". ์ฌ๊ธฐ์ "[Medical Text]"๋ ์๋ก์ด ์๋ฃ ์์ IM์ ์ํ ์๋ฆฌํ์์๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- Output Modification: ๊ธฐ์กด target ๋์ , ์ฐ๋ฆฌ๋ ์ธ์๋ head entity Ohead์ tail entity Otail๋ฅผ template๋ก ํตํฉํฉ๋๋ค.
- "The medical text has the following pairs of entities: [head entity] is [head entity] and tail entity is [tail entity]". LLMs๊ฐ NER task๋ฅผ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ ์ ์์ต๋๋ค.
Multi-task Fine-tuning
์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด, ์๋ฃ ์์ฉ ํ๋ก๊ทธ๋จ์ name entity recognition, medical inquiry ๋ฑ ๋ค์ํ ์์ ์ ํฌํจํ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ด๋ฌํ task์ ๋ํด LLMs๋ฅผ fine-tuneํ์ฌ ๊ฐ task์ ์ฑ๋ฅ์ ๋์ด๊ณ , ๋์์ ์ ์ฒด healthcare system์๋ ํํ์ ์ค ์ ์๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
multi-task fine-tuning์ ์ํด, ์ฃผ์ด์ง structured data Dj๋ฅผ ๊ณ ๋ คํด๋ณด๋ฉด, ๊ฐ task Tj์ ๋ชฉํ๋ LLMs๋ฅผ fine-tuneํ์ฌ ์ ํฉํ ์ถ๋ ฅ ๋ฐ ์ ๋ ฅ ํจํด์ template ํํ๋ก ์ ์งํ๋ ๊ฒ์ ๋๋ค.
fine-tuning ๋์ค ๊ฐ task์ ๋ํ ๋ฐ์ดํฐ D๊ฐ ์ฃผ์ด์ง๋ค๋ฉด, multi-task fine-tuning ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ช ํํ ํ ์ ์์ต๋๋ค.
Method
์ ์๋ ํ๋ ์์ํฌ์ ๋ํ ์ข ํฉ์ ์ธ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค.
์ ์๋ ๋ฐฉ๋ฒ์ ๊ฐ์๋ก ์์ํ์ฌ MOELoRA์ task-motivated gate์ ๋ํด ์ค๋ช ํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก fine-tuning ๋ฐ inference ํ๋ก์ธ์ค๋ฅผ ์์ธํ ์ค๋ช ํฉ๋๋ค.
Overview
parameter efficient fine-tuning framework์์, LoRA๋ dense layers์์ low-rank matrices๋ฅผ ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ผ๋ก์ ๊ฐ๋ ์ ๋์ ํฉ๋๋ค.
์ด๋ฅผ ๋ฐํ์ผ๋ก, ์ฐ๋ฆฌ๋ MOELoRA layers๋ฅผ ๊ฐ layer์ ํตํฉํ์ฌ keys, queries, ๊ทธ๋ฆฌ๊ณ values์ ํ์ต์ ์ง์ํฉ๋๋ค. ๋ํ, feed-forward network (FFN)์ ์์๋ก ํ์ฌ ์ค๋ช ํฉ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก, ๊ฐ MOELoRA layer๋ ๋ค์ํ ์์ ์ ๋ํด ๋ค์์ฑ์ ํฌ์ฐฉํ๊ธฐ ์ํด multiple experts๋ฅผ ํตํฉํฉ๋๋ค.
๋ค์, task-motivated gate function์ ๋์ ํ์ฌ ๊ฐ MOELoRA layer์ ์๋ expert๋ค์ด ํด๋น task์ ๋ง๋ parameters๋ฅผ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
์ด gate function์ MOELoRA layers์์ expert ๊ฐ์ ๊ธฐ์ฌ๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ๋ฐ๋ผ์, MOELoRA๋ ๊ฐ ์์ ์ ๋ํด distinct fine-tuned weights๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
MOELoRA
Low-rank Adaptation (LoRA)๋ parameter efficient fine-tuning์์ ๊ทธ ํจ๊ณผ์ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค.
LoRA๋ intrinsic dimensionality ํ์์์ ์๊ฐ์ ๋ฐ์์ผ๋ฉฐ, LLMs์ parameter fine-tuning ๋ฌธ์ ๋ฅผ low-rank decomposition์ผ๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค.
์ด decomposition์ ์ฃผ์ด์ง matrix A๊ฐ low-rank ๋ฐ trainableํ๊ฒ ํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
์ค์ ์์ LoRA layer์ ๊ฒฐํฉ๋ linear layer์ forward ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ ์ ์์ต๋๋ค:
์ฌ๊ธฐ์ x๋ ์ฐจ์ din์ ์ ๋ ฅ ๋ฒกํฐ๋ฅผ ๋ํ๋ด๋ฉฐ, hhh๋ ์ฐจ์ dout์ ์ถ๋ ฅ ๋ฒกํฐ๋ฅผ ๋ํ๋ ๋๋ค.
ํ๋ จ ๊ฐ๋ฅํ low-rank ํ๋ ฌ์ rank๋ r์ด๋ฉฐ, ์ด๋ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
๊ทธ๋ฌ๋, ์๋ LoRA์์๋ ๋ชจ๋ ์์ ์ ๋ํด ์ผ๊ด์ ์ผ๋ก ํ๋ผ๋ฏธํฐ๊ฐ fine-tuning๋๋ฏ๋ก, ์๋ฃ ์ง์์ ๋ค์ํ ์ธก๋ฉด์ ํ์ตํ๋ ๋ฐ ์ด๋ ค์์ด ์์ต๋๋ค.
์ฌ๊ธฐ์๋ LoRA์ MOELoRA์ ๋ํ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ ผ์ํฉ๋๋ค.
LoRA์์๋ ๋ ๊ฐ์ low-rank ํ๋ ฌ B∈Rdin×r ๋ฐ A∈Rr×dout์ด ๋ชจ๋ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจํฉ๋๋ค.
Task-Motivated Gate Function
์ด ์น์ ์์๋ task-motivated gate function์ ์ธ๋ถ ์ฌํญ์ ๋ค๋ฃน๋๋ค. ๊ฐ expert์ ๊ธฐ์ฌ๋๊ฐ ํน์ ์์ ์ ๋ง์ถฐ์ ธ์ผ ํ๋ค๋ ์ ์ ๊ฐ์กฐํ์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ฌ๋๋ฅผ ์กฐ์ ํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ gate function์ ๋์ ํฉ๋๋ค.
์ด๋ค์ inherently task-specific์ด๋ฏ๋ก, ๊ฐ gate function์ ์์ ์ ์ ์ฒด์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด ์ค๊ณ๋ ์์ ๋ณ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณต๊ตฌํ ์ ์๊ฒ ๋ง๋ค๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ์ฃผ์ ์ด์ ์ ์ ๊ณตํฉ๋๋ค:
- Task๋ณ ๋ง์ถคํ: ๊ฐ ์์ ์ ๋ณ๋์ ํ๋ผ๋ฏธํฐ ์ ์ผ๋ก fine-tuning๋๋ฉฐ, ์ด๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค.
- Inference ์ ํจ์จ์ฑ: ๋ณต๊ตฌ๋ fine-tuned LLMs๋ ๊ฐ์๋ inference latency๋ฅผ ๊ฐ์ง๋๋ค. ์ด๋ MOELoRA layer์ ์ฐ๊ด๋ ์ถ๊ฐ forward ๊ณ์ฐ์ด ํ์ํ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
Fine-tune and Inference
MOELoRA์ fine-tuning ๋ฐ inference ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค. ๊ฐ๋ ์ฑ์ ์ํด, ์ฐ๋ฆฌ๋ Algorithm 1์์ ๊ฒฐ๋ก ์ ๋ด๋ฆฝ๋๋ค.
- Fine-tuning: ์ฐ๋ฆฌ๋ LLMs์์ ์ง์ ๋ layer์ ๋ํด MOELoRA๋ฅผ ์ค์ ํ๊ณ ์ฌ๋ฌ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ค์ ํฉ๋๋ค (๋ผ์ธ 1-3). ์ดํ, fine-tuning ์ ํ๋ผ๋ฏธํฐ efficient fine-tuning์ ์ํด ๋ชจ๋ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๊ฒฐํ๊ณ , ๊ฐ ์ํ์ ๋ฌด์์๋ก ์ ํํ ๋ฐฐ์น์์ ์ํํฉ๋๋ค (๋ผ์ธ 4-7).
Algorithm 1 MOELoRA์ Fine-tuning ๋ฐ Inference ๊ณผ์
1. Fine-tuning์ด ํ์ํ LLMs์ ๋ ์ด์ด๋ฅผ ์ง์ ํฉ๋๋ค.
2. Rank ๊ฐ r๊ณผ Scale ๊ฐ α๋ฅผ ์ง์ ํฉ๋๋ค.
3. MOELoRA์ Expert ์ N์ ์ง์ ํฉ๋๋ค.
Fine-tuning ๊ณผ์
4. ์ฌ์ ํ์ต๋ LLMs์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๊ฒฐํฉ๋๋ค. ์: Wq, Wk, Wv.
5. ๋ฐ์ดํฐ์ D์ ์ํ ๋ฐฐ์น B์ ๋ํด,
6. MOELoRA๋ฅผ ์ฌ์ฉํ์ฌ LLMs์ ๋ํ forward ๊ณผ์ ์ ์ํํฉ๋๋ค (์์ ์ 4 ์ฐธ๊ณ ).
7. ์์ค ํจ์ L๋ฅผ ๊ณ์ฐํฉ๋๋ค (์ 2 ์ฐธ๊ณ ).
8. MOELoRA์ ํ๋ผ๋ฏธํฐ {Ai,Bi}i=1N ๋ฐ Gate Function์ ํ๋ผ๋ฏธํฐ {E,WT}๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
9. ์ข ๋ฃ.
Inference ๊ณผ์
10. ๋ชจ๋ ์์ Tj์ ๋ํด,
11. ๊ฐ Expert์ ๋ํด ๊ธฐ์ฌ ๊ฐ์ค์น ωj๋ฅผ ๊ณ์ฐํฉ๋๋ค (์ 5 ์ฐธ๊ณ ).
12. ๊ฐ ์์ ์ ๋ํด ์ 8์ ์ฌ์ฉํ์ฌ MOELoRA์ fine-tuned ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณต๊ตฌํฉ๋๋ค.
13. ์ข ๋ฃ.
14. ํน์ ์์ Tj์ ๋ํด, ํด๋น ์์ ์ ํ์ํ LLMs์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฉํ์ฌ ์์ธก์ ์ํํฉ๋๋ค.
- LLMs์ ํ๋ผ๋ฏธํฐ (๋ผ์ธ 4)๊ฐ ๋๊ฒฐ๋ฉ๋๋ค. Fine-tuning ๋์, ์ฐ๋ฆฌ๋ ๋์ผํ ์์ ์ ์ํ์ ํ๋์ ๋ฐฐ์น๋ก ๊ทธ๋ฃนํํ๋ ๋์ , ๋ชจ๋ ์์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํฉ๋๋ค.
- ์ด๋ ์ผ๋ถ multi-task ์ฐ๊ตฌ์์ ์ํ๋๋ ๋ฐฉ์์ ๋๋ค. ์ฐ๋ฆฌ๋ ์คํ์์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด ๋ฐฐ์น์ ๋ํด ๋ฌด์์ ์ํ๋ง์ ์ ํํ์ต๋๋ค.
- ์ด ๋ฐ์ดํฐ ๋ฐฐ์น๋ฅผ ์ฌ์ฉํ์ฌ forward ๊ณผ์ ์ ์ํํ๊ณ fine-tuning์ ์ํ ์์ค์ ๊ณ์ฐํ ์ ์์ต๋๋ค (๋ผ์ธ 6-7). ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ MOELoRA์ ํ๋ผ๋ฏธํฐ์ task-motivated gate function, ์ฆ {Ai,Bi}i=1N ๋ฐ {E,WT}๋ง fine-tuningํฉ๋๋ค.
Inference: ์์ ์ค๋ช ํ ๋ฐ์ ๊ฐ์ด, MOELoRA๋ ๊ฐ ์์ ์ ๋ํด fine-tuned ํ๋ผ๋ฏธํฐ ํ๋ ฌ์ ๋ณต๊ตฌํ ์ ์์ต๋๋ค (๋ผ์ธ 8).
- ๊ทธ๋ฐ ๋ค์, ๊ฐ ์์ ์ ๋ํด LLMs ํ๋ผ๋ฏธํฐ์ ํจ๊ป ํด๋น ์์ ์ ์ํํ๋ ๋ฐ ํ์ํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฉํ ์ ์์ต๋๋ค.
Experiment
์ด ์น์ ์์๋ ๋ค์ ์ฐ๊ตฌ ์ง๋ฌธ(RQ)์ ๋ํด ๋ค๋ฃจ๊ณ ์ ํฉ๋๋ค.
- RQ1: MOELoRA๊ฐ ๋ค๋ฅธ parameter-efficient fine-tuning ์ ๋ต ๋ฐ cross-task generalization ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ์ฑ๋ฅ ์ธก๋ฉด์์ ์ด๋ค ์ฐจ์ด๊ฐ ์๋๊ฐ?
- RQ2: MOE ์ํคํ ์ฒ์ gate function์ด fine-tuning ๊ณผ์ ์ ๋ฏธ์น๋ ์ํฅ์ ๋ฌด์์ธ๊ฐ? ๋ค์ํ ํ๋ จ ์ ๋ต์ด MOELoRA์ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ?
- RQ3: MOELoRA์ expert ์์ rank๊ฐ ์ฑ๋ฅ ๊ฒฐ๊ณผ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ?
- RQ4: ์ ์๋ MOELoRA๊ฐ fine-tuning ๋ฐ inference ๊ณผ์ ์์ ํจ์จ์ ์ธ๊ฐ?
Table 1: PromptCBLUE ๋ฐ์ดํฐ์ ์ ๊ฐ๋จํ ์ค๋ช ๋ฐ ํต๊ณ
Task | Description | # Train | # Validation | # Test |
CMeIE | Name Entity Recognition | 2,828 | 600 | 600 |
CHIP-CDN | Normalization | 2,381 | 600 | 600 |
CHIP-CDEE | Attribute Extraction | 1,562 | 600 | 600 |
CHIP-MDCFNPC | Clinic Entity Discovery | 4,935 | 600 | 600 |
CHIP-CTC | Medical Text Classification | 3,622 | 1,100 | 1,100 |
KUAKE-QIC | Query Intention | 3,279 | 660 | 660 |
IMCS-V2-MRG | Report Generation | 1,799 | 600 | 600 |
MedDG | Doctor Dialogue | 4,964 | 600 | 600 |
- RQ5: ์ ๋ฌธ๊ฐ๋ค์ด ๋ค์ํ ์์ ์์ ์ง์์ ํฌ์ฐฉํ๋ ๋ฐ ์์ด ํนํ๋์ด ์๋๊ฐ?
Experimental Settings
Dataset
์ฐ๋ฆฌ์ ์คํ์ multi-task Chinese medical dataset์ธ PromptCBLUE์์ ์ํ๋ฉ๋๋ค.
์ด ๋ฐ์ดํฐ์ ์ ๋ค์ํ ์๋ฃ ์์ ์ ํฌํจํ๋ฉฐ, ์ด๋ LLMs์์ ํธํ์ฑ์ ๋์ด๊ธฐ ์ํด ํ ์คํธ ํ์์ผ๋ก ๋ณํ๋์์ต๋๋ค.
์ฐ๋ฆฌ์ ์ง์์ ๋ฐ๋ฅด๋ฉด, PromptCBLUE๋ LLMs์ ๋ง์ถฐ์ง ์ ์ผํ multi-task ์๋ฃ ๋ฐ์ดํฐ์ ์ ๋๋ค. ์ฐ๋ฆฌ๋ computational constraints๋ก ์ธํด 8๊ฐ์ ์์ ์ ๋ฌด์์๋ก ์ ํํ์ฌ ์คํ์ ์ฌ์ฉํ์ต๋๋ค.
์๋ณธ ๋ฐ์ดํฐ์ ์ ์ค๋ณต๋ ์ํ์ ์ ๊ฑฐํ ํ, ์ฐ๋ฆฌ๋ ํ์ต ์ธํธ๋ฅผ ํ ์คํธ ์ธํธ๋ก ์ฌ์ฉํ์ง ์๋๋ก ์ค์ ํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ํต๊ณ ์ ๋ณด๋ Table 1์ ์์ฝ๋์ด ์์ต๋๋ค.
Baselines
์ฐ๋ฆฌ์ ์คํ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ค ๊ฐ์ง ์ข ๋ฅ์ baselines์ ๋น๊ตํฉ๋๋ค.
- LLMs without Fine-tuning: LLMs๊ฐ ๋ค์ํ ์์
์ ์ํํ ์ ์๋๋ก ConText Learning์ ์ ์ฉํฉ๋๋ค.
- ChatGPT: ChatGPT๋ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ LLMs ์ค ํ๋์ ๋๋ค. ์ฐ๋ฆฌ๋ task-relevant ability๋ฅผ ํ๊ฐํ๊ธฐ ์ํด, ํ์ต ๋ฐ์ดํฐ์์ 3์์ 10๊ฐ์ ์ ๋ ฅ-์ถ๋ ฅ ์์ ๋ฌด์์๋ก ์ ํํ์ฌ, ์ ๋ ฅ๊ณผ ๋์ผํ task๋ก ๋ฐ๋ชจ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
- Hautuo: Hautuo๋ ์ค๊ตญ ์๋ฃ ๋ฐ์ดํฐ์ ์์ ์์ง๋ instruct dataset์ ๊ตฌ์ถํฉ๋๋ค. ์ฐ๋ฆฌ๋ in-context learning ๋ฐฉ์์ผ๋ก ChatGPT baseline๊ณผ ๊ณต์ ํ๊ฒ ๋น๊ตํ๊ธฐ ์ํด ChatGLM-6B์ version์ ์ฌ์ฉํฉ๋๋ค.
- LLMs with Fine-tuning: ์ด ๊ทธ๋ฃน์ fine-tuning ์ ๋ต์ ๋ณ์ข
์ ์ฌ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํฉ๋๋ค.
- P-Tuning: P-Tuning์ ํ๋กฌํํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ ํ๋กฌํํธ ์ธ์ฝ๋๋ฅผ fine-tuningํ์ฌ ์ ๋ ฅ ์ํ์ค์ ์ฝ์ ํฉ๋๋ค.
- LoRA (Full): LoRA๋ dense layers์ low-rank matrices๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๊ฒฐํฉ๋๋ค.
- LoRA (Single): ์ฐ๋ฆฌ๋ LoRA (Single)๋ฅผ task๋ณ๋ก ๋ฐ๋ก LoRA๋ฅผ ํ๋ จํ์ฌ ๊ตฌํํฉ๋๋ค.
- LoRA (Full+TP): ์ฐ๋ฆฌ๋ ์ ๋ ฅ ํ ์คํธ์ ๊ฐ๋จํ task demonstration์ ์ถ๊ฐํ์ฌ LLMs๊ฐ ์์ ๊ฐ์ ๊ตฌ๋ถ์ ์ธ์ํ๋๋ก ํฉ๋๋ค. ๊ตฌํ ์ธก๋ฉด์์๋ LoRA (Full)์ ๋์ผํ ํ๋ จ ๊ณผ์ ์ ์งํํฉ๋๋ค.
Multi-task์ ๋ํ ์ถ๊ฐ ์์ ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ๋ชจ๋ task ๋ฒกํฐ๋ฅผ ํจ๊ป ๋ํ๊ณ validation ์ธํธ์์ scale factor๋ฅผ ์กฐ์ ํ์ต๋๋ค.
Cross-task Generalization: Multi-task fine-tuning์ ๋ํ cross-task generalization์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ต๊ทผ์ ๋ ๊ฐ์ง ์ ๊ทผ๋ฒ์ธ LoRAHub์ MoLoRA๋ฅผ ํ๊ฐํฉ๋๋ค.
- LoRAHub: LoRAHub๋ source tasks์์ fine-tuned ๋ LoRA ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐํฉํ์ฌ, unseen target tasks์ ๋ํ ์ผ๋ฐํ๋ฅผ ๋ชจ์ํ๋ ์กฐ๋ฆฝ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ์คํ์์, ์ฐ๋ฆฌ๋ ๊ฐ ์์ ์ LoRA๋ก fine-tuningํ๊ณ , ์ง์ ๋ ์์ ์ validation์ ์ฌ์ฉํ์ฌ ์กฐํฉ ๊ฐ์ค์น๋ฅผ ํ์ตํ๋ฉฐ ์ด ์์ ์ ์ฑ๋ฅ์ ํ ์คํธํฉ๋๋ค.
- MoLoRA: MoLoRA๋ ๋น๊ต์ ์ต๊ทผ์ ์ฐ๊ตฌ๋ก, MOE ๊ตฌ์กฐ๋ฅผ LoRA์ ์ฑํํฉ๋๋ค.
๊ทธ๋ฌ๋ MoLoRA์ gate๋ token์ ์ค๊ฐ embedding์ ์ฌ์ฉํ์ฌ expert weights๋ฅผ ๋์ถํฉ๋๋ค.
์ฐ๋ฆฌ์ ์คํ์์, ์ฐ๋ฆฌ๋ ์ด๋ฅผ multi-task ์ค์ ์ ๋ง์ถ์ด, ์ฆ, ๋์ผํ ์์ ์ธํธ์์ ํ๋ จ ๋ฐ ํ ์คํธํ๋๋ก ์กฐ์ ํ์ต๋๋ค.
Implementation Details
์ฐ๋ฆฌ์ ์คํ์ PyTorch 1.12.0 ๋ฐ Python 3.9.5๋ฅผ ์ฌ์ฉํ์ฌ Tesla V100 32G GPUs์์ ์๋ฎฌ๋ ์ด์ ๋์์ต๋๋ค.
LLM ChatGLM-6B๋ Chinese language processing์ ๋ฅ์ํ ๊ฒ์ผ๋ก ์ธ์ ๋ฐ์ fine-tuning์ ์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
๋ชจ๋ LoRA fine-tuning baselines ๋ฐ ์ ์๋ MOELoRA์ ๋ํด, ์ฐ๋ฆฌ๋ ํ๋ จ ๊ฐ๋ฅํ ๋ ์ด์ด๋ฅผ "query_key_value", "dense", "dense_h_to_4h", ๋ฐ "dense_4h_to_h"๋ก ์ง์ ํ์ต๋๋ค.
์ต๋ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ๊ธธ์ด๋ ๊ฐ๊ฐ 1,024 ๋ฐ 196์ผ๋ก ์ค์ ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ 64๋ก ์ค์ ํ๊ณ ์ต๋ 8,000 training steps๊น์ง ์งํํ์ต๋๋ค. LoRA rank rrr๋ 16์ผ๋ก ๊ณ ์ ๋์์ผ๋ฉฐ, LoRA dropout α=0.1 α=0.1๋ก ์ค์ ๋์์ต๋๋ค.
MOELoRA์ ๊ฒฝ์ฐ, experts์ ์๋ 8๋ก ์ค์ ๋์์ผ๋ฉฐ, sparse gate ๋ฒ์ ์ MOELoRA์ ๋ํด ์ต์ ์ ๊ฐ์ ์ฐพ๊ธฐ ์ํด KKK ๊ฐ์ 1์์ 7๊น์ง ๊ฒ์ํ์ต๋๋ค.
ํ ์คํธ ์ค์๋, ์ฐ๋ฆฌ๋ generation์ ์ํ ์จ๋๋ฅผ 0.95๋ก ์ค์ ํ์ต๋๋ค. ์ฐ๋ฆฌ์ MOELoRA ๊ตฌํ์ PEFT ํจํค์ง์ ํธํ๋์ด, ์ ์๋ MOELoRA์ ๋ ์ฌ์ด ์ฑํ๊ณผ ํ์ฉ์ ์ด์งํ ์ ์์ต๋๋ค.
Evaluation Metrics
ํ๊ฐ๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ ์์ ์ ํน์ฑ์ ๋ง๋ ๋ค์ํ ๋ฉํธ๋ฆญ์ ์ฌ์ฉํฉ๋๋ค.
์๋ฅผ ๋ค์ด, CMeIE๋ named entity recognition (NER) ์์ ์ผ๋ก, ๋ง์ entity ํด๋์ค๊ฐ ์์ต๋๋ค (CMeIE์๋ 1,262๊ฐ์ ํด๋์ค๊ฐ ์์).
๊ตต์ ๊ธ์จ๋ ์ต๊ณ ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ฐ์ค์ ํด๋น ๋ฐฉ๋ฒ์ ์ต์ ์ ์๋ฅผ ๋ํ๋ ๋๋ค.
"**"๋ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฐ์ ์ ๋ํ๋ ๋๋ค (์ฆ, ์์ธก t-test์์ (p < 0.05)๋ก ์ต๊ณ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ต).
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์ด ์์ ์ ๋ํด ์์ฃผ ์ฌ์ฉ๋๋ Micro-F1์ ์ ์ฉํฉ๋๋ค. CHIP-CDN (579 ํด๋์ค), CHIP-CDEE (998 ํด๋์ค), CHIP-MDCFNPC (2,065 ํด๋์ค)๋ ๋ชจ๋ task๊ฐ ๋๋ฌด ๋ง์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก, Micro-F1์ด ํ๊ฐ์ ์ฌ์ฉ๋ฉ๋๋ค.
๋น๊ต์ ์ผ๋ก, CHIP-CTC (44๊ฐ ํด๋์ค)์ QUAKE-QIC (7๊ฐ ํด๋์ค) ์์ ์ ๋ ์ ์ ์์ ํด๋์ค๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด๋ ๊ฐ ํด๋์ค์ ๋์ผํ ์ค์์ฑ์ ๊ณ ๋ คํด์ผ ํ๋ฏ๋ก Macro-F1์ ์ ์ฉํฉ๋๋ค. ํ ์คํธ ์์ฑ ์์ , ์๋ฅผ ๋ค์ด IMCS-V2-MRG ๋ฐ MedDG์ ๊ฒฝ์ฐ, Rouge-L ์ด ์ ์ฉ๋ฉ๋๋ค. ๋ํ, ์ ์ฒด ์์ ์ ๊ฑธ์น ํ๊ท ์ ์๋ ์ ์ฒด ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๊ฒฐ๊ณผ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ฌํ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด, ํ ์คํธ๋ ๋ฌด์์ ์๋ {42, 43, 44}๋ก ์ธ ๋ฒ ์คํ๋๋ฉฐ, ํ๊ท ์ ์๊ฐ ๋ค์์ ์คํ ๊ฒฐ๊ณผ์ ๋ณด๊ณ ๋ฉ๋๋ค.
Overall Performance (RQ1)
MOELoRA์ ๊ฒฝ์์ ์ธ ๋ฒ ์ด์ค๋ผ์ธ๋ค์ ์ข ํฉ์ ์ธ ์คํ ๊ฒฐ๊ณผ๋ Table 2์ ๋์ ์์ต๋๋ค.
MOELoRA(D)์ MOELoRA(S)๋ ๊ฐ๊ฐ MOELoRA์ dense ๋ฐ sparse gate ๋์์ธ์ ๋ํ๋ ๋๋ค.
์ ์ฒด ํ๊ท ์ ์๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ, MOELoRA(D)๋ ๋ค๋ฅธ ๋ชจ๋ ๋ฐฉ๋ฒ๋ณด๋ค ์ผ๊ด๋๊ฒ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
RQ1์ ๋ํ ์๋ต์ ์ํด, ์ธ๋ถ ๋ถ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- LLMs without Fine-tuning: Fine-tuning์ด ์๋ LLMs ๊ทธ๋ฃน์ task-specific medical knowledge๋ฅผ ํตํฉํ๊ธฐ ์ํด fine-tuning์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด์, ์ฑ๋ฅ์ด ์๋นํ ๋ค์ณ์ง๋๋ค.
- Parameter Efficient Fine-tuning Strategies: ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ fine-tuning ์ ๋ต ์ค, LoRA ๊ธฐ๋ฐ ๋ฉ์๋๊ฐ ๋ช
ํํ๊ฒ P-Tuning์ ๋ฅ๊ฐํฉ๋๋ค.
- LoRA (Full) ๋ฐ LoRA (Full+TP)๋ ๋ชจ๋ ์์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก LoRA (Single)๋ณด๋ค ์ฐ์ํ์ง๋ง, ์ผ๋ถ task์์๋ underperformํฉ๋๋ค. ์ด๋ task ๊ฐ์ ์ง์ ๊ณต์ ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
- Model Editing: Task-Arithmetic์ task ๋ฒกํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก, ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ธ fine-tuning์๋ ์ ํฉํ์ง ์์ต๋๋ค.
- Cross-task Generalization: Cross-task generalization ํ๊ฒฝ์์ ๋ ๊ฐ์ง ์ต๊ทผ์ ์ ๊ทผ๋ฒ์ ํ๊ฐํ์์ผ๋ฉฐ, ์ด๋ค์ multi-task ์ค์ ์์ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
- Dense Gate vs. Sparse Gate: Table 2์์ ๋ณผ ์ ์๋ฏ์ด, sparse gate๊ฐ ๋ ๊ฐ์ง task์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, multi-task ์๋ฃ ์์ฉ ํ๋ก๊ทธ๋จ์์๋ shared medical knowledge๊ฐ ๋ ์ค์ํ์ต๋๋ค.
- dense gate๋ ๋ชจ๋ expert๋ฅผ ํ์ฉํ์ฌ ํ์ต๋ ์ง์์ ๊ณต์ ํ๋ ๋ฐ ๋์์ด ๋๋ฏ๋ก, ๋๋ถ๋ถ์ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค.
- Task-specific Observations: ์ฑ๋ฅ์ ๋ณ๋์ ์์
๊ฐ์ ๋ช
ํํ๊ฒ ๋ํ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, LoRA (Full) ๋ฐ LoRA (Full+TP)๋ ๋ฐ์ดํฐ์ ์ด ํฐ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, LoRA (Single)๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ๊ฐ์กฐํ์ฌ ์ํ์ด ์ ์ ์์ ์์ ๋น์ ๋ฐํฉ๋๋ค.
- MOELoRA๋ ๋๋ถ๋ถ์ ์์ ์์ ์ผ๊ด๋๊ฒ ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ด๋ฌํ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. MedDG ์์ ์ ๊ฒฝ์ฐ, ChatGPT์ Hautuo์ ๊ณ ์ ํ ๋ํ ๊ธฐ๋ฅ์ด ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ๋นํด ์ฐ์๋ฅผ ์ ๊ณตํฉ๋๋ค.
Ablation Study (RQ2)
RQ2๋ฅผ ๋ ๊น์ด ์ฐ๊ตฌํ๊ณ ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ๋๋ฅผ ์ดํดํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ Table 3์์ ์ ์๋ ablation ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
w/o MOE (๋ณธ์ง์ ์ผ๋ก LoRA (Full)๋ก ๋๋์๊ฐ) ๋ณํ์ MOE ์ํคํ ์ฒ๋ฅผ ์ ์ธํฉ๋๋ค.
์ด ๋ณํ์ ์์ ํ MOELoRA์ ๋น๊ตํ์ฌ ์ฑ๋ฅ์ด ์ ํ๋จ์ ๋ณด์ฌ์ฃผ๋ฉฐ, MOE ์ํคํ ์ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, gate function์ ์ฐํํ์ฌ ๊ท ์ผํ expert weights๋ฅผ ์ฌ์ฉํ๋ w/o gate ๋ณํ๋ MOELoRA๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ฒ์ง๋ฉฐ, gate function์ ํจ๊ณผ๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
w multiple gate ๋ณํ์ ๊ฐ MOELoRA ๋ ์ด์ด์ ๋ํด ๊ณ ์ ํ gate function์ ์ฌ์ฉํฉ๋๋ค.
์ด ๋ณํ์ด ์ผ๋ถ ์์ ์์๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง๋ง, ๊ณผ๋ํ ํ๋ผ๋ฏธํฐํ๋ก ์ธํด single gate function ์ค๊ณ์ ๋นํด ์ฝ๊ฐ ๋ค์ฒ์ง๋๋ค
๊ฒ๋ค๊ฐ, ๋ค์ค gate function์ ๋ ๋ง์ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ํ์ฌ, ํจ์จ์ฑ์ด ๊ฐ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ต๋๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ค์ํ ํ๋ จ ์ ๋ต์ด ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํฉ๋๋ค.
ํนํ, w BT ๋ฐฉ๋ฒ [36]์ ๋์ผํ ์์ ์์ ์ํ์ ํ๋์ ๋ฐฐ์น๋ก ํตํฉํฉ๋๋ค.
๋ฐ๋ฉด์, w RBT ์ ๊ทผ๋ฒ [39]์ ๋ฐ์ดํฐ ๋ฐฐ์น๋ง๋ค ๋ฌด์์๋ก ์์ ์ ์ ํํฉ๋๋ค. ์ด๋ค ๋ ๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ MOELoRA์ ๋ ์ ๋ฆฌํ ๊ฒ์ผ๋ก ๋ํ๋๋ฉฐ, ์ฑ๋ฅ ์ ํ๋ฅผ ์ด๋ํฉ๋๋ค.
์ด ์ฑ๋ฅ ๋น๊ต๋ ํน์ ํ๋ จ ํจํด์ ์ํฅ๋ ฅ์ ๊ฐ์กฐํฉ๋๋ค.
์ ์๋ MOELoRA์ ๊ฒฌ๊ณ ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ attention ๋ ์ด์ด์ LoRA ๋ ์ด์ด๋ง์ ๋ถ๊ณผํ๋ ์คํ์ ์ํํ์ผ๋ฉฐ, ์ด๋ฅผ LoRA (Full)-QKV ๋ฐ MOELoRA(D)-QKV๋ก ๋ช ๋ช ํ์์ต๋๋ค.
๊ฒฐ๊ณผ์์, ์ฐ๋ฆฌ๋ MOELoRA(D)-QKV๊ฐ ๋๋ถ๋ถ์ ์์ ์์ LoRA (Full)-QKV๋ฅผ ๋ฅ๊ฐํ ์ ์์์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์ด๋ Table 2์์ MOELoRA(D)์ LoRA (Full)์ ์ฑ๋ฅ ๋น๊ต์ ์ผ์นํฉ๋๋ค.
๋ํ, MOELoRA(D)๋ MOELoRA(D)-QKV๋ณด๋ค ์ฐ์ํ๋ฏ๋ก, ๋ ๋ง์ MOELoRA ๋ ์ด์ด๊ฐ ์ง์์ ์ผ๋ก fine-tuning ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
Hyper-parameter Analysis (RQ3)
RQ3์ ๋ตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ MOELoRA(D)์ ์ฑ๋ฅ์ ๋ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ ์ํฅ์ ๋ ๊น์ด ํ๊ตฌํฉ๋๋ค. ํนํ, expert ์ N๊ณผ LoRA rank r์ ๋ณ๋์ด ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํฉ๋๋ค.
Figure 4์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, ์ฐ๋ฆฌ์ ๊ด์ฐฐ์ N์ด 0์์ 8๋ก ์ฆ๊ฐํจ์ ๋ฐ๋ผ MOELoRA์ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
์ด ํฅ์์ ๋ ๋ง์ ์์ experts๊ฐ ๋ ๊ด๋ฒ์ํ ์ง์ ์คํํธ๋ผ์ ํ์ต์ ์ด์งํ ์ ์๋ค๋ ์ฌ์ค์ ๊ธฐ์ธํ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ N์ด 16์ผ๋ก ์ค์ ๋๋ฉด, ์ฑ๋ฅ์ด ์ฝ๊ฐ ํ๋ฝํ๋ ๊ฒ์ ๊ด์ฐฐํ ์ ์์ต๋๋ค.
์ด๋ ๊ฐ expert์ ๋ํด ์์ LoRA rank๊ฐ ์ค์ ๋์ด, low-rank ํ๋ ฌ์ ํ์ต ๋ฅ๋ ฅ์ ์ ํ์ํฌ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์, ๊ฐ expert์ rank๋ฅผ 2๋ก ์ค์ ํ์ต๋๋ค.
Figure 4b์์ ๋ณผ ์ ์๋ฏ์ด, r์ ์ฆ๊ฐ๊ฐ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง, ๋์์ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ ํฌ๊ธฐ๊ฐ ๋น๋กํ์ฌ ์ฆ๊ฐํฉ๋๋ค. ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ์ฌ์ด์ ๊ท ํ์ ๊ณ ๋ คํ ๋, r์ ์ค์ฉ์ ์ธ ์ ํ์ 16์ด ๋ ๊ฒ์ ๋๋ค.
Hyper-parameter Analysis (RQ4)
ํ๋ จ ๋ฐ inference ํจ์จ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ Figure 5์์ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ ๋น์จ๊ณผ inference latency๋ฅผ ๋น๊ตํฉ๋๋ค.
Inference latency๋ inference ์ํ์ ์์ ๋ํ inference ์๊ฐ์ ํ๊ท ์ ํตํด ๊ณ์ฐ๋ฉ๋๋ค.
MOELoRA(M)๋ task-motivated gate๊ฐ ๋๋ฐ๋ MOELoRA์ ๋ณํ์ ๋ํ๋ ๋๋ค.
๊ฒฐ๊ณผ๋ MOELoRA๊ฐ LoRA (Full)์ ๋์ผํ ์์ค์ ๋์ ํ๋ จ ๋ฐ inference ํจ์จ์ฑ์ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ LLMs ํ๋ผ๋ฏธํฐ์ 0.48% ์ด์์ fine-tuningํ ํ์ ์์ด ๋ฆฌ์์ค๋ฅผ ์ ์ฝํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
MoLoRA ๋ฐ MOELoRA(M)๋ ๊ฐ ํ๋ จ ๊ฐ๋ฅํ low-rank ๋ ์ด์ด์ ๋ํ ์ถ๊ฐ gate๋ฅผ ์ค์ ํ๋ฏ๋ก ๋ ๋ง์ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํฉ๋๋ค.
Inference์ ์์ด, ๋ชจ๋ ๋ชจ๋ธ์ ๋์ผํ inference latency๋ฅผ ํ์๋ก ํ์ง๋ง, MoLoRA๋ fine-tuned ํ๋ผ๋ฏธํฐ๋ฅผ Equation (8)๊ณผ ๊ฐ์ด ๋ณต๊ตฌํ ์ ์์ผ๋ฏ๋ก, ์ํ์์ expert weights๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค.
๋ฐ๋ผ์, MoLoRA๋ inference ์ ์ถ๊ฐ์ ์ธ forward ๊ณ์ฐ์ด ํ์ํ์ฌ, ๋ ๋ง์ inference latency๋ฅผ ์ด๋ํฉ๋๋ค.
์ด ๋น๊ต๋ task-motivated gate ์ค๊ณ์ ์ด์ ์ ๋ณด์ฌ์ค๋๋ค. RQ4์ ๋ํ ์๋ต์ผ๋ก, ์ค๊ณ๋ MOELoRA๋ ๋์ ํ๋ จ ๋ฐ inference ํจ์จ์ฑ์ ๋ฌ์ฑํ๋ฉฐ, task-motivated gate์ ์ํ ํจ์จ์ฑ ์ ํ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
Case Study (RQ5)
RQ4์ ๋ํด, ์ฐ๋ฆฌ๋ Figure 6์ ์๋ ๋ค ๊ฐ์ง ์์ ์ ๋ํ expert weights์ ์๊ฐํ๋ฅผ ์ ์ํฉ๋๋ค.
๊ฐ ์์ ์์, ๋ค๋ฅธ ์์์ ๋ง๋ ๊ธธ์ด๋ ํด๋น expert์ weights๋ฅผ ๋ํ๋ ๋๋ค.
Expert weights๋ 1๋ก ์ ๊ทํ๋์๊ธฐ ๋๋ฌธ์, ๊ฐ ์์ ์ ๋ง๋ ๊ธธ์ด๋ ๋์ผํฉ๋๋ค.
๋งคํฌ๋ก ์์ค์์ ๋ณผ ๋, ๊ฐ expert์ ๊ธฐ์ฌ๋๊ฐ ์๋นํ ๋ค๋ฅด๋ฉฐ, ์ด๋ ์๋ก ๋ค๋ฅธ expert๊ฐ ์๋ฃ ์ง์์ ๋ค์ํ ์ธก๋ฉด์์ ํนํ๋๋ค๋ ๊ฐ๋ ์ ๊ฐ์กฐํฉ๋๋ค.
๋ํ, ์์ ๊ฐ weight์ ํ์ ํ ์ฐจ์ด๋ ์๋ฃ ์์ฉ์ ๋ค์ํ ํน์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
CHIP-CDN ๋ฐ KUAKE-QIC ์์ ์ ์์ธํ ์ดํด๋ณด๋ฉด, ํด๋น ์์ ์์ expert weights๊ฐ ๋๋ถ๋ถ ์ผ์นํ์ง๋ง, experts 3๊ณผ 4์ ๊ฒฝ์ฐ๋ ์์ธ์ ์ผ๋ก ๋ค๋ฆ ๋๋ค.
์ง๋จ์ฉ ๋จ์ด ์ ๊ทํ๊ฐ ์ง์ ๋ถ๋ฅ๋ฅผ ๊ฐํํ ์ ์๋ค๋ ์ ์ ๊ณ ๋ คํ ๋, expert weights์ ์ ์ฌ์ฑ์ MOELoRA๊ฐ ๊ด๋ จ ์์ ์ ๋์์ด ๋๋ ๊ณต์ ๋ ์ง์์ ์ ํ์ฉํ ์ ์์์ ์์ฌํฉ๋๋ค.
Related Work
LLM for Medical Applications
์ต๊ทผ, LLMs์ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ด ๋ง์ ๋ถ์ผ์์ ์ ์ฆ๋์์ผ๋ฉฐ, ์๋ฃ ๋๋ฉ์ธ์ ํฌํจํ์ฌ ํฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, Med-PaLM์ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ MultiMedQA๋ฅผ ์ ์ํ์ผ๋ฉฐ, ์ด๋ ์์ ์ง์ ํ๊ฐ๋ฅผ ์ํ ์๋ก์ด ์ง๋จ ์ง์ ์๋ต ๊ณผ์ ๋ฅผ ์ถ๊ฐํ์ต๋๋ค.
Med-PaLM2๋ ์๋ก์ด prompting ์ ๋ต๊ณผ ensemble ๊ฐํ๋ก Med-PaLM์ ํฅ์์์ผฐ์ต๋๋ค. ์ด ์ ๋ต์ MedQA ๋ฐ ์๊ธฐ ์ผ๊ด์ฑ์ ๊ธฐ๋ฐํ์ฌ, MedQA์์ ์๋นํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ChatDoctor๋ 100,000๊ฐ์ ํ์-์์ฌ ๋ํ๋ฅผ ์ฌ์ฉํ์ฌ LLMs์ fine-tuningํ์์ผ๋ฉฐ, ๋๋ฆฌ ์ฌ์ฉ๋๋ ์๋ฃ ์๋ด ํ๋ซํผ์์ ํ์๋ ๊ฒ์ ๋๋ค.
๋ํ, HuaTuo๋ CMeKG๋ก ์ฒ์์ผ๋ก ์ค๊ตญ์ด ์๋ฃ ์ง์์ ํ์ตํ๊ณ , ์ค๊ตญ์ด ์๋ฃ ํ ์คํธ์์ LLMs๋ฅผ fine-tuningํ์์ต๋๋ค. ๋ณด๋ค ๊ตฌ์ฒด์ ์ธ ์๋ฃ ์์ฉ์ ์ํด, Liu et al.๋ ์๋ฃ LLM ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๊ฐ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ชจ๋ธ ํธ์ง ๋ฐฉ๋ฒ์ ์ค๊ณํ์์ผ๋ฉฐ, Xu et al. ๋ ์๋ฃ LLMs์์ ๋ฐ์ํ๋ ํ๊ฐ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ชจ๋ธ ํธ์ง ๋ฐฉ๋ฒ์ ์ค๊ณํ์์ต๋๋ค.
๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ์ด์ ์์ ์ ํน์ ์๋ฃ ์์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์ฌ๋ฌ ์ค์ํ ์์ ์ ๋์์ ๋ค๋ฃจ๋ ๊ฒ์ ๊ฐ๊ณผํฉ๋๋ค. ๋ํ, ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์๋นํ fine-tuning ๋น์ฉ์ด ํ์ํฉ๋๋ค.
Parameter Efficient Fine-tuning
Parameter Efficient Fine-tuning (PEFT) ๋ฐฉ๋ฒ์ fine-tuning ํ๋ผ๋ฏธํฐ์ ์์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ต์ํํจ์ผ๋ก์จ LLMs์ ์๋ก์ด ์์ ์ ๋ํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ค ํฉ๋๋ค. Adapter Tuning ์ ๊ฐ๋ฒผ์ด adapter ๋ชจ๋์ ์ฒ์ ์๊ฐํ์์ผ๋ฉฐ, ์ด๋ ์์์ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ง์ ํฌํจํฉ๋๋ค.
Prefix-tuning๊ณผ P-Tuning์ ํ๋ จ ๊ฐ๋ฅํ continuous prompts ๋๋ embeddings์ ์๋ ์ํ์ค์ ์ถ๊ฐํ๋ task-specific ๊ฐ์ ํ ํฐ์ ๊ตฌ์ฑํฉ๋๋ค. ๊ทธ๋ฌ๋ prompts๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ํ์ค ๊ธธ์ด ์ ํ์ผ๋ก ์ธํด ๊ธธ์ด๊ฐ ๊ธด ์ ๋ ฅ์์ ์ด๋ ค์์ ์ด๋ํ ์ ์์ต๋๋ค.
LoRA๋ ๊ฐ dense layer์ ๋ํด ํ๋ จ ๊ฐ๋ฅํ low-rank matrices ๋ ๊ฐ๋ฅผ ๋์ ํ๋ฉฐ, inference ์ค ์ถ๊ฐ ๊ณ์ฐ ์์ด full fine-tuning๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค.
๊ทธ๋ฌ๋ LoRA fine-tuning์ multi-task ์๋ฃ ์์ฉ์์ ์ฌ์ ํ ์ต์ ํ๋์ด์ผ ํฉ๋๋ค. LoRA ๊ธฐ๋ฐ PEFT ๋ฐฉ๋ฒ์ ์ฌ์ ํ ๋ฐ์ ์ค์ด๋ฉฐ, ์ฐ๋ฆฌ๋ ๊ทธ ์ฒซ ๊ฑธ์์ ๋ด๋๊ณ ์์ต๋๋ค.
Conclusion
์ด ๋ ผ๋ฌธ์์๋ LLM-driven ์๋ฃ ์์ฉ์ ์ํ multi-task parameter efficient fine-tuning์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ฅผ ํ๊ตฌํฉ๋๋ค. ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋ง์กฑ์ํค๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ MOELoRA๋ผ๋ ์๋ก์ด multi-task fine-tuning ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ์ฌ๋ฌ low-rank ํ๋ ฌ๋ก ๊ตฌ์ฑ๋ MOELoRA ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ์ฌ, trainable ํ๋ผ๋ฏธํฐ๋ฅผ task-specific ์ง์ ๋ฐ ๋์ ํจ์จ์ฑ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค. ๋ํ, ๊ฐ ์์ ์ ๋ํ ๋ ํนํ fine-tuned ํ๋ผ๋ฏธํฐ๋ฅผ ์์ฑํ ์ ์๋ task-motivated gate function์ ์ค๊ณํ์ต๋๋ค.
์ค๊ตญ ์๋ฃ ๋ฐ์ดํฐ์ ์์ ๊ด๋ฒ์ํ ์คํ์ ํตํด, ์ ์๋ MOELoRA์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ์ต๋๋ค. ํฅํ์๋ ์ง์ ๊ทธ๋ํ์ ๊ฐ์ ๋ณต์กํ ์๋ฃ ์ง์์ LLMs์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํ ์์ ์ ๋๋ค.
'๐ Thesis' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Paper Review] Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering (0) | 2024.09.27 |
---|---|
[Paper Review] VGGNet Code ๊ตฌํ (By PyTorch) (0) | 2024.08.05 |
[Paper Review] VGGnet Review (0) | 2024.08.05 |