์ด๋ฒ์๋ "LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS" ๋ ผ๋ฌธ์ ํ๋ฒ ๋ฆฌ๋ทฐํด ๋ณด๊ฒ ์ต๋๋ค.
- ๋ ผ๋ฌธ ๋งํฌ
Abstract
์์ฐ์ด ์ฒ๋ฆฌ์ ์ค์ํ ํจ๋ฌ๋ค์์ ์ผ๋ฐ์ ์ธ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ํ ๋๊ท๋ชจ ์ฌ์ ํ์ต๊ณผ ํน์ ์์ ๋๋ ๋๋ฉ์ธ์์ ์ ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด์ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ฌํ์ตํ๋ ์์ ๋ฏธ์ธ ์กฐ์ ์ ์ ์ ๋นํ์ค์ ์ด ๋๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด GPT-3 175B์ ๊ฒฝ์ฐ, ๊ฐ ์์ ์ ๋ํด 175B ๋งค๊ฐ๋ณ์๋ฅผ ํฌํจํ ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ ์ธ์คํด์ค๋ฅผ ๋ฐฐํฌํ๋ ๊ฒ์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๊ฐ ๊ณ์ธต์ ์ ๋ญํฌ(rank decomposition) ํ๋ ฌ์ ์ฝ์ ํ๋ LoRA(Low-Rank Adaptation)๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ํ์ ์์ ์์ ํ์ตํด์ผ ํ ๋งค๊ฐ๋ณ์ ์๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์์ต๋๋ค.
LoRA๋ GPT-3 175B์์ Adam์ ์ฌ์ฉํ ์์ ๋ฏธ์ธ ์กฐ์ ๋๋น ํ์ต ๋งค๊ฐ๋ณ์๋ฅผ 10,000๋ฐฐ ์ค์ด๊ณ GPU ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ 3๋ฐฐ ์ค์ ๋๋ค. RoBERTa, DeBERTa, GPT-2, GPT-3์์ LoRA๋ ๋ ์ ์ ๋งค๊ฐ๋ณ์๋ก๋ ๋ฏธ์ธ ์กฐ์ ๋ณด๋ค ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ๋ชจ๋ธ ํ์ง์ ๋ฌ์ฑํ๋ฉฐ, ํ์ต ์๋๊ฐ ๋ ๋น ๋ฅด๊ณ ์ถ๊ฐ์ ์ธ ์ถ๋ก ์ง์ฐ์ด ๋ฐ์ํ์ง ์์ต๋๋ค. ๋ํ, ์ธ์ด ๋ชจ๋ธ ์ ์์์์ ๋ญํฌ ๊ฒฐํ(rank-deficiency)์ ์ค์ฆ์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ LoRA์ ํจ๋ฅ์ ์ค๋ช ํฉ๋๋ค. ์ฐ๋ฆฌ๋ PyTorch ๋ชจ๋ธ๊ณผ์ ํตํฉ์ ์ฉ์ดํ๊ฒ ํ๋ ํจํค์ง๋ฅผ ์ ๊ณตํ๊ณ , RoBERTa, DeBERTa, GPT-2์ ๋ํ ๊ตฌํ๊ณผ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ณต๊ฐํฉ๋๋ค.
- Github Link: https://github.com/microsoft/LoRA
Introduction
์์ฐ์ด ์ฒ๋ฆฌ(NLP)์ ๋ง์ ์์ฉ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ๋ค์ํ ํ์ ์์ฉ์ ๋ง๊ฒ ์ ์์ํค๋ ๋ฐ ์์กดํฉ๋๋ค. ์ด๋ฌํ ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค. ๊ทธ๋ฌ๋ ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์ฃผ์ ๋จ์ ์ ์๋ก์ด ๋ชจ๋ธ์ด ์๋ ๋ชจ๋ธ๊ณผ ๋์ผํ ์์ ๋งค๊ฐ๋ณ์๋ฅผ ํฌํจํด์ผ ํ๋ค๋ ์ ์ ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๊ณ์ ์ปค์ง๋ฉด์ ์ด๋ ๋จ์ํ "๋ถํธํจ"์ ๋์ด์ GPT-2(Radford et al., b)๋ RoBERTa large(Liu et al., 2019)์ ๊ฐ์ ๋ชจ๋ธ์์ ์์๋ ๋ฌธ์ ๊ฐ, GPT-3(1750์ต ๊ฐ์ ๋งค๊ฐ๋ณ์)์์๋ ์ฌ๊ฐํ ๋ฐฐํฌ ๋ฌธ์ ๋ก ์ด์ด์ก์ต๋๋ค.
๋ง์ ์ฐ๊ตฌ๋ค์ ์ผ๋ถ ๋งค๊ฐ๋ณ์๋ง ์ ์ํ๊ฑฐ๋ ์๋ก์ด ์์ ์ ์ํ ์ธ๋ถ ๋ชจ๋์ ํ์ตํจ์ผ๋ก์จ ์ด ๋ฌธ์ ๋ฅผ ์ํํ๋ ค ํ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ฐ ์์ ์ ๋ํด ์์์ ์์ ๋ณ ๋งค๊ฐ๋ณ์๋ง ์ ์ฅํ๊ณ ๋ก๋ํ๋ฉด ๋๋ฏ๋ก ์ด์ ํจ์จ์ฑ์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด ๊ธฐ์ ์๋ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๊ฐ ์์ต๋๋ค:
- ๋ชจ๋ธ์ ๊น์ด๋ฅผ ํ์ฅํด ์ถ๋ก ์ง์ฐ(inference latency)์ ๋์ ํ๊ฑฐ๋(Houlsby et al., 2019; Rebuffi et al., 2017),
- ๋ชจ๋ธ์ ์ฌ์ฉ ๊ฐ๋ฅํ ์ํ์ค ๊ธธ์ด๋ฅผ ์ค์ด๋ ๋ฐฉ์(Li & Liang, 2021; Lester et al., 2021; Hambardzumyan et al., 2020; Liu et al., 2021) ๋ฑ์ด ํฌํจ๋ฉ๋๋ค.
- ์ด๋ฌํ ๋ฐฉ์์ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ํ์ง ๊ฐ์ ํธ๋ ์ด๋์คํ(trade-off)๋ฅผ ์ด๋ํ๋ฉฐ, ๋ฏธ์ธ ์กฐ์ ๋ฐฉ์์ ์ฑ๋ฅ์ ์์ฃผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํฉ๋๋ค.
LoRA์ ํต์ฌ ๊ฐ์ค: Li et al. (2018a) ๋ฐ Aghajanyan et al. (2020)์ ์ฐ๊ตฌ์ ์๊ฐ์ ๋ฐ์, ์ฌ์ ํ์ต๋ ๊ณผ์ ํฉ(over-parametrized) ๋ชจ๋ธ์ด ๋ณธ์ง์ ์ผ๋ก ๋ฎ์ ์ฐจ์์ ๊ฐ์ง๋ค๋ ์ ์ ๊ด์ฐฐํ์ต๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก, ์ ์๋ ๋ชจ๋ธ ์ ์ ์ค ๊ฐ์ค์น ๋ณํ ์ญ์ ๋ฎ์ "๋ด์ฌ์ ๋ญํฌ(intrinsic rank)"๋ฅผ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
LoRA๋ ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ ์ํ์์, ์ ์ ์ค ๊ฐ์ค์น ๋ณํ ๋ถ๋ถ์ ์ ๋ญํฌ ํ๋ ฌ(rank decomposition matrices)๋ก ์ต์ ํํฉ๋๋ค. ์ด๋ฅผ ํตํด GPT-3(1750์ต ๋งค๊ฐ๋ณ์)์ ๊ฒฝ์ฐ์๋ ๋งค์ฐ ๋ฎ์ ๋ญํฌ(r)๋ก ํจ์จ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค(์: ๋ญํฌ r=1 ๋๋ 2๋ก๋ ์ถฉ๋ถ).
LoRA์ ์ฃผ์ ์ฅ์
- ํจ์จ์ ์ ์ฅ ๋ฐ ์์
์ ํ
- ํ๋์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ณต์ ํ๋ฉฐ, ์์ ๋ณ๋ก ์ํ LoRA ๋ชจ๋(์ ๋ญํฌ ํ๋ ฌ A์ B)๋ง ๊ต์ฒดํ๋ฉด ๋ฉ๋๋ค. ์ด๋ ์ ์ฅ ์๊ตฌ ์ฌํญ๊ณผ ์์ ์ ํ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ์ค์ ๋๋ค.
- ํจ์จ์ ํ์ต๊ณผ ํ๋์จ์ด ์๊ตฌ์ฌํญ ๊ฐ์
- ๋๋ถ๋ถ์ ๋งค๊ฐ๋ณ์์ ๋ํด ๊ฒฝ์ฌ ๊ณ์ฐ์ด๋ ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ์ ์งํ ํ์๊ฐ ์์ผ๋ฏ๋ก ํ์ต ํจ์จ์ฑ์ด ์ต๋ 3๋ฐฐ ํฅ์๋ฉ๋๋ค.
- ์ถ๋ก ์ง์ฐ ์์
- ํ์ต๋ ํ๋ ฌ์ ๊ณ ์ ๋ ๊ฐ์ค์น์ ํตํฉํ์ฌ ์ ์ฅํ๋ฉด ์ถ๋ก ์ ์ถ๊ฐ ์ง์ฐ์ด ์์ต๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์๊ณผ์ ๊ฒฐํฉ ๊ฐ๋ฅ์ฑ
- LoRA๋ ํ๋ฆฌํฝ์ค ํ๋(prefix-tuning) ๊ฐ์ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ณํํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํธ๋์คํฌ๋จธ ๊ณ์ธต์ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ฐจ์: dmodel
์ ํ ์ดํ ์ ๋ชจ๋
- Wq: ์ฟผ๋ฆฌ ํ๋ก์ ์ ํ๋ ฌ
- Wk: ํค ํ๋ก์ ์ ํ๋ ฌ
- Wv: ๊ฐ ํ๋ก์ ์ ํ๋ ฌ
- Wo: ์ถ๋ ฅ ํ๋ก์ ์ ํ๋ ฌ
์ฌ์ ํ์ต ๊ฐ์ค์น: W0
๋ญํฌ: r (LoRA ๋ชจ๋์ ๋ญํฌ)
์ต์ ํ: Adam ์ตํฐ๋ง์ด์ ์ฌ์ฉ(Loshchilov & Hutter, 2019)
MLP ํผ๋ํฌ์๋ ์ฐจ์: dffn = 4 × dmodel
Problem Statement
์ด ๋ ผ๋ฌธ์์์ ์ ์์ ํน์ training objective์ ์ข ์๋์ง ์์ง๋ง, language modeling์ ์ฃผ์ ์ฌ๋ก๋ก ์ค์ ํ์ฌ ์ค๋ช ํฉ๋๋ค. ์๋๋ language modeling ๋ฌธ์ ์ ๋ํ ๊ฐ๋ตํ ์ค๋ช ๊ณผ, ํน์ ์์ (task)-๊ธฐ๋ฐ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ก์ ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํํ๋ ์์ ์ ๋ํ ๊ฐ์์ ๋๋ค.
์ฌ์ ํ์ต๋ autoregressive language model PΦ(yโฃx)์ด ์ฃผ์ด์ก๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ์ฌ๊ธฐ์ Φ๋ ๋ชจ๋ธ์ ๋งค๊ฐ๋ณ์๋ฅผ ๋ํ๋ ๋๋ค. ์๋ฅผ ๋ค์ด, PΦ(yโฃx))๋ Transformer architecture(Vaswani et al., 2017)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ GPT(Radford et al., b; Brown et al., 2020)์ ๊ฐ์ ์ผ๋ฐ์ ์ธ multi-task learner์ผ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ downstream conditional text generation tasks์ ์ ์์ํค๋ ๊ฒ์ ๊ณ ๋ คํฉ๋๋ค:
- summarization (์์ฝ)
- machine reading comprehension (MRC)
- natural language to SQL (NL2SQL)
๊ฐ downstream task๋ context-target ์์ training dataset Z={(xi,yi)}i=1,..,N์ผ๋ก ํํ๋ฉ๋๋ค. ์ฌ๊ธฐ์ xi์ yi๋ ๋ชจ๋ ํ ํฐ์ ์ํ์ค์ ๋๋ค.
์๋ฅผ ๋ค์ด:
- NL2SQL์์๋ xi๊ฐ ์์ฐ์ด ์ฟผ๋ฆฌ์ด๊ณ yi๋ ํด๋น SQL ๋ช ๋ น์ ๋๋ค.
- summarization์์๋ xi๊ฐ ๊ธฐ์ฌ ๋ด์ฉ์ด๊ณ yi๋ ๊ทธ ์์ฝ์ ๋๋ค.
Full Fine-Tuning
full fine-tuning ๊ณผ์ ์์๋ ๋ชจ๋ธ์ด ์ฌ์ ํ์ต๋ ๊ฐ์ค์น Φ0๋ก ์ด๊ธฐํ๋๊ณ , ์กฐ๊ฑด๋ถ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ๋ฅผ ์ต๋ํํ๊ธฐ ์ํด ๊ฒฝ์ฌ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ๋ฅด๋ฉฐ ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ๋ค์ ์์ด ์ด๋ฅผ ๋ํ๋ ๋๋ค.
๊ทธ๋ฌ๋ full fine-tuning์ ์ฃผ์ ๋จ์ ์, ๊ฐ downstream task๋ง๋ค โฃΔΦโฃ=โฃΦ0โฃ์ธ ๋ณ๋์ ๋งค๊ฐ๋ณ์ ์ธํธ ΔΦ๋ฅผ ํ์ตํด์ผ ํ๋ค๋ ์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ๋งค์ฐ ํด ๊ฒฝ์ฐ(์: GPT-3์์ โฃΦ0โฃ≈175 Billion), ์ฌ๋ฌ fine-tuned ๋ชจ๋ธ ์ธ์คํด์ค๋ฅผ ์ ์ฅํ๊ณ ๋ฐฐํฌํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต๊ฑฐ๋ ๋ถ๊ฐ๋ฅํ ์ ์์ต๋๋ค.
Parameter-Efficient Approach
์ด ๋ ผ๋ฌธ์์๋ ๋ ํจ์จ์ ์ธ ๋งค๊ฐ๋ณ์ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํฉ๋๋ค. ์ฌ๊ธฐ์ task-specific parameter increment ΔΦ=ΔΦ(Θ)๋ ํจ์ฌ ๋ ์์ ํฌ๊ธฐ์ ๋งค๊ฐ๋ณ์ ์งํฉ Θ๋ก ์ธ์ฝ๋ฉ๋ฉ๋๋ค (โฃΘโฃโชโฃΦ0โฃ). ๊ฒฐ๊ณผ์ ์ผ๋ก, ΔΦ๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ Θ๋ฅผ ์ต์ ํํ๋ ๋ฌธ์ ๋ก ๋ณํ๋ฉ๋๋ค.
Low-Rank Representation ์ ์
์ดํ ์น์ ์์๋ ΔΦ๋ฅผ low-rank representation์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด GPT-3 175B์ผ ๊ฒฝ์ฐ, ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์ โฃΘโฃ๋ โฃΦ0โฃ์ 0.01%๋งํผ ์์ ์ ์์ต๋๋ค.
Aren’t Existing Solutions Good Enough? (๊ธฐ์กด ์๋ฃจ์ ์ ์ถฉ๋ถํ ์ข์๊ฐ?)
์ฐ๋ฆฌ๊ฐ ํด๊ฒฐํ๋ ค๋ ๋ฌธ์ ๋ ์๋ก์ด ๊ฒ์ด ์๋๋๋ค. Transfer learning์ด ๋ฑ์ฅํ ์ดํ, ์๋ง์ ์ฐ๊ตฌ๋ค์ด ๋ชจ๋ธ ์ ์์ ๋งค๊ฐ๋ณ์ ๋ฐ ๊ณ์ฐ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ชจ์ํด ์์ต๋๋ค. ์ธ์ด ๋ชจ๋ธ๋ง์ ์๋ก ๋ค๋ฉด, ํจ์จ์ ์ธ ์ ์์ ์ํด ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ์ ๋ต์ด ์ฌ์ฉ๋ฉ๋๋ค:
- Adapter Layers ์ถ๊ฐ(Houlsby et al., 2019; Rebuffi et al., 2017; Pfeiffer et al., 2021; Rücklé et al., 2020)
- ์ ๋ ฅ ๊ณ์ธต ํ์ฑํ(activations) ์ต์ ํ(Li & Liang, 2021; Lester et al., 2021; Hambardzumyan et al., 2020; Liu et al., 2021)
๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ ๊ฐ์ง ์ ๋ต์ ํนํ ๋๊ท๋ชจ ๋ฐ ์ง์ฐ(latency)์ ๋ฏผ๊ฐํ ํ๋ก๋์ ํ๊ฒฝ์์ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
Adapter Layers๋ ์ถ๋ก ์ง์ฐ(Inference Latency)์ ์ด๋
Adapter์๋ ์ฌ๋ฌ ๋ณํ์ด ์กด์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ Houlsby et al. (2019)์ ๋ ๊ฐ์ ์ด๋ํฐ ๋ ์ด์ด๋ฅผ Transformer ๋ธ๋ก๋น ์ถ๊ฐํ๋ ์๋ ์ค๊ณ์ Lin et al. (2020)์ ํ๋์ ์ด๋ํฐ ๋ ์ด์ด์ ์ถ๊ฐ LayerNorm(Ba et al., 2016)์ ์ฌ์ฉํ๋ ์ค๊ณ๋ฅผ ์ค์ฌ์ผ๋ก ๋ ผ์ํฉ๋๋ค.
- ์ฅ์ ๊ณผ ํ๊ณ:๊ทธ๋ฌ๋ ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์์๋ ํ๋์จ์ด ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ํตํด ์ง์ฐ์ ์ค์ด์ง๋ง, adapter layers๋ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌ๋์ด์ผ ํฉ๋๋ค.
- ์ด๋ก ์ธํด ์จ๋ผ์ธ ์ถ๋ก ํ๊ฒฝ์์ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 1์ผ ๊ฒฝ์ฐ ๋์ ๋๋ ์ง์ฐ์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
- Adapter layers๋ bottleneck dimension(์ข์ ์ฐจ์)์ ์ฌ์ฉํด ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์์ ์ค์ ๋๋ค(์ข ์ข ์๋ ๋ชจ๋ธ์ 1% ๋ฏธ๋ง).
- GPT-2 ์์:
- ๋ชจ๋ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ์๋ ๊ฒฝ์ฐ, GPT-2 medium์์ adapter layers๋ ์์ bottleneck dimension์ ์ฌ์ฉํด๋ ์ถ๋ก ์ง์ฐ์ ์ ๋ฐํฉ๋๋ค(Table 1 ์ฐธ์กฐ).
- ๋ฌธ์ ์ฌํ:
- ๋ชจ๋ธ์ shard(๋ถํ )ํด์ผ ํ๋ ๊ฒฝ์ฐ(Shoeybi et al., 2020; Lepikhin et al., 2020), ์ถ๊ฐ๋ ๊น์ด๋ ๋ ๋ง์ ๋๊ธฐ GPU ์ฐ์ฐ(AllReduce ๋ฐ Broadcast)์ ์๊ตฌํฉ๋๋ค. Adapter ๋งค๊ฐ๋ณ์๋ฅผ ์ฌ๋ฌ ๋ฒ ์ค๋ณต ์ ์ฅํ์ง ์๋ ํ, ์ด ๋ฌธ์ ๋ ๋์ฑ ์ ํ๋ฉ๋๋ค.
ํ๋กฌํํธ ์ต์ ํ๋ ์ด๋ ต๋ค (Directly Optimizing the Prompt is Hard)
ํ๋ฆฌํฝ์ค ํ๋(prefix tuning; Li & Liang, 2021)์ ์ฌ๋ก์์ ๋ณผ ์ ์๋ฏ, ํ๋กฌํํธ ์ต์ ํ๋ ๋ ๋ค๋ฅธ ์ด๋ ค์์ ๊ฒช์ต๋๋ค:
- ์ต์ ํ์ ์ด๋ ค์: Prefix tuning์ ์ฑ๋ฅ์ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ ์์ ๋ฐ๋ผ ๋น์ ํ์ ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ ๊ธฐ์กด ๋ ผ๋ฌธ์์๋ ์ ์ฌํ ๊ด์ฐฐ์ด ๋ณด๊ณ ๋์์ต๋๋ค.
- ์ํ์ค ๊ธธ์ด์ ์ ์ฝ: ์ ์์ ์ํด ์ํ์ค ๊ธธ์ด์ ์ผ๋ถ๋ฅผ ์์ฝํด์ผ ํ๋ฏ๋ก, downstream task์์ ์ฌ์ฉํ ์ ์๋ ์ํ์ค ๊ธธ์ด๊ฐ ์ค์ด๋ญ๋๋ค. ์ด๋ ํ๋กฌํํธ ํ๋์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋นํด ์ฑ๋ฅ์ด ๋ฎ์ ์์ธ์ผ๋ก ์ถ์ ๋ฉ๋๋ค.
๊ฒฐ๋ก : Adapter layers์ prefix tuning์ ๊ฐ๊ฐ ๊ณ ์ ํ ํ๊ณ๋ฅผ ๊ฐ์ง๋ฉฐ, ํนํ ๋๊ท๋ชจ ํ๋ก๋์ ํ๊ฒฝ์์๋ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๊ฐ์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ LoRA์ ๊ฐ์ ์๋ก์ด ์ ๊ทผ๋ฒ์ด ํ์ํจ์ ๋ณด์ฌ์ค๋๋ค.
Our Method (์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ)
LoRA์ ๋จ์ํ ์ค๊ณ์ ์ค์ง์ ์ธ ์ด์ ์ ์ค๋ช ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ค๋ช ํ๋ ์์น์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ชจ๋ ๋ฐ์ง ๊ณ์ธต(dense layers)์ ์ ์ฉ๋ ์ ์์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ Transformer ์ธ์ด ๋ชจ๋ธ์ ํน์ ๊ฐ์ค์น์ ์ด์ ์ ๋ง์ถ๊ณ ์คํํฉ๋๋ค.
Low-Rank-Parameterized Update Matrices (์ ๋ญํฌ ๋งค๊ฐ๋ณ์ํ ์ ๋ฐ์ดํธ ํ๋ ฌ)
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฐ์ง ๊ณ์ธต์ ํฌํจํ๋ฉฐ, ์ด ๊ณ์ธต์ ๊ฐ์ค์น ํ๋ ฌ์ ์ผ๋ฐ์ ์ผ๋ก ํ๋ญํฌ(full-rank)์ ๋๋ค. Aghajanyan et al. (2020)์ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ด ๋ฎ์ "intrinsic dimension(๋ด์ฌ์ ์ฐจ์)"์ ๊ฐ์ง๋ฉฐ, ์์ ํ์ ๊ณต๊ฐ์ผ๋ก์ ๋๋ค ํฌ์์๋ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ฐ์ค์น ์ ๋ฐ์ดํธ ๋ํ ๋ฎ์ "intrinsic rank(๋ด์ฌ์ ๋ญํฌ)"๋ฅผ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
LoRA์ ํต์ฌ:
์ฌ์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ W0∈Rd×kW_0 \in \mathbb{R}^{d \times k}W0∈Rd×k์ ์ ๋ฐ์ดํธ๋ฅผ ์ ๋ญํฌ ํ๋ ฌ๋ก ์ ํํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ํํํฉ๋๋ค.
- ํ์ต ์ค์๋ W0๋ ๊ณ ์ ๋๊ณ , A์ B๋ง ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ก ์ฌ์ฉ๋ฉ๋๋ค.
์์ ๋ ์์ ํ(forward pass) ๊ณผ์ ์ ์๋์ ๊ฐ์ต๋๋ค.
Figure 1์ ์ด ์ฌ๊ตฌ์ฑ ๊ณผ์ ์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ์ด๊ธฐํ์์ A๋ ๊ฐ์ฐ์์ ๋ถํฌ๋ก, B๋ 0์ผ๋ก ์ค์ ํฉ๋๋ค. ํ์ต ์ด๊ธฐ์ ΔW=0์ด๋ฏ๋ก ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ฑ๋ฅ๊ณผ ๋์ผํ๊ฒ ์์ํฉ๋๋ค.
์ค์ผ์ผ๋ง ๋ฐ ์ต์ ํ
ΔWx๋ฅผ α\r๋ก ์ค์ผ์ผ๋งํฉ๋๋ค. ์ฌ๊ธฐ์ α๋ ์์์ด๊ณ , r์ ๋ญํฌ์ ๋๋ค. Adam ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ ๋ α ํ๋์ ํ์ต๋ฅ ์กฐ์ ๊ณผ ์ ์ฌํ ์ญํ ์ ํ๋ฏ๋ก, ์ด๊ธฐ α๋ฅผ ์ค์ ํ ํ ์ถ๊ฐ ํ๋ ์์ด ํ์ต์ ์งํํ ์ ์์ต๋๋ค.
Full Fine-Tuning์ ์ผ๋ฐํ
LoRA๋ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ์ ๋ํ ์ ๋ฐ์ดํธ๊ฐ ์ ์(adaptation) ๋์ ํ๋ญํฌ์ผ ํ์๊ฐ ์์์ ์๋ฏธํฉ๋๋ค. LoRA๋ฅผ ๋ชจ๋ ๊ฐ์ค์น ํ๋ ฌ์ ์ ์ฉํ๊ณ bias๋ฅผ ํ์ตํ๋ฉด, LoRA์ ๋ญํฌ r์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ์ ๋ญํฌ๋ก ์ค์ ํ์ฌ full fine-tuning์ ํํ๋ ฅ์ ๋์ฒดํ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ฅผ ์ฆ๊ฐ์ํค๋ฉด LoRA๋ ์๋ ๋ชจ๋ธ์ ํ์ต๊ณผ ๋์ผํ ์์ค์ผ๋ก ์๋ ดํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, adapter-based ๋ฐฉ๋ฒ์ MLP๋ก ์๋ ดํ๋ฉฐ, prefix-based ๋ฐฉ๋ฒ์ ๊ธด ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ถ๋ก ์ ์ถ๊ฐ ์ง์ฐ ์์ (No Additional Inference Latency)
ํ๋ก๋์ ์์ LoRA๋ฅผ ๋ฐฐํฌํ ๋, W = W0+BA ๋ฅผ ๋ช ์์ ์ผ๋ก ๊ณ์ฐํ๊ณ ์ ์ฅํ์ฌ ์ผ๋ฐ์ ์ธ ์ถ๋ก ์ฒ๋ผ ์ํํ ์ ์์ต๋๋ค.
๋ค๋ฅธ downstream task๋ก ์ ํํ๋ ค๋ฉด BA๋ฅผ ๋นผ๊ณ B′A′๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ๋น ๋ฅด๊ฒ ์ ํํ ์ ์์ต๋๋ค. ์ด๋ ์ถ๋ก ์ง์ฐ ์์ด ์์ ๊ฐ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Applying LoRA to Transformer (Transformer์ LoRA ์ ์ฉ)
LoRA๋ ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น ํ๋ ฌ ์ผ๋ถ์ ์ ์ฉํ์ฌ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์ ์๋ฅผ ์ค์ผ ์ ์์ต๋๋ค. Transformer ์ํคํ ์ฒ์์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ค์น ํ๋ ฌ์ด ์กด์ฌํฉ๋๋ค:
- Self-attention ๋ชจ๋: Wq,Wk,Wv,Wo
- MLP ๋ชจ๋: ๋ ๊ฐ์ ๊ฐ์ค์น ํ๋ ฌ
์ฐ๋ฆฌ๋ downstream tasks์์ self-attention์ ๊ฐ์ค์น๋ง ์ ์์ํค๊ณ , MLP ๋ชจ๋์ ํ์ตํ์ง ์๊ณ ๊ณ ์ ํฉ๋๋ค. ์ด๋ ์ค๊ณ๋ฅผ ๋จ์ํํ๊ณ ๋งค๊ฐ๋ณ์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํจ์ ๋๋ค. (Section 7.1์์ self-attention ๊ฐ์ค์น ์กฐ์ ์ ์ํฅ์ ์ถ๊ฐ์ ์ผ๋ก ์ฐ๊ตฌ)
Practical Benefits and Limitations (์ค์ง์ ์ด์ ๊ณผ ํ๊ณ)
- ๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ ์ฅ ๊ณต๊ฐ ์ ์ฝ
- GPT-3 175B์ ๊ฒฝ์ฐ, VRAM ์ฌ์ฉ๋์ 1.2TB์์ 350GB๋ก ์ค์ ๋๋ค.
- Checkpoint ํฌ๊ธฐ๋ฅผ ์ฝ 10,000๋ฐฐ ๊ฐ์์ํต๋๋ค(350GB → 35MB).
- GPU ์๊ตฌ๋ ๊ฐ์ ๋ฐ ์๋ ํฅ์
- Full fine-tuning ๋๋น 25% ํ์ต ์๋ ์ฆ๊ฐ(GPT-3 175B ๊ธฐ์ค).
- ๋๋ถ๋ถ์ ๋งค๊ฐ๋ณ์์์ ๊ฒฝ์ฌ๋ฅผ ๊ณ์ฐํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์์
๊ฐ ์ ํ ์ฉ์ด
- LoRA ๊ฐ์ค์น๋ง ๊ต์ฒดํ์ฌ ์์ ๊ฐ ์ ํ ๊ฐ๋ฅ.
- VRAM์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ฅผ ์ ์ฅํ ์ํ๋ก ๋ค์ํ ๋ชจ๋ธ์ ์ฆ์ ์ ํํ ์ ์์ต๋๋ค.
ํ๊ณ
- ์๋ก ๋ค๋ฅธ A,B๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ ์ ๋ฐฐ์น(batch) ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ต์ต๋๋ค.
- ์ง์ฐ์ด ์ค์ํ์ง ์์ ์๋๋ฆฌ์ค์์๋ ๊ฐ์ค์น๋ฅผ ๋ณํฉํ์ง ์๊ณ ๋์ ์ผ๋ก LoRA ๋ชจ๋์ ์ ํํ ์ ์์ต๋๋ค.
Empirical Experiments (์คํ ์ฐ๊ตฌ)
LoRA๋ฅผ RoBERTa (Liu et al., 2019), DeBERTa (He et al., 2021), ๊ทธ๋ฆฌ๊ณ GPT-2 (Radford et al., b)์์ ํ๊ฐํ ๋ค, ์ด๋ฅผ GPT-3 175B (Brown et al., 2020)๋ก ํ์ฅํ์ฌ ์คํํฉ๋๋ค. ์คํ์ ์์ฐ์ด ์ดํด(NLU)๋ถํฐ ์์ฑ(NLG) ์์ ๊น์ง ๋ค์ํ ๋ฒ์๋ฅผ ๋ค๋ฃน๋๋ค.
๋ฐ์ดํฐ์ ๋ฐ ์์
- RoBERTa ๋ฐ DeBERTa:
- GLUE ๋ฒค์น๋งํฌ (Wang et al., 2019)
- GPT-2:
- Li & Liang (2021)์ ์ค์ ์ ๋ฐ๋ฆ.
- GPT-3 (๋๊ท๋ชจ ์คํ):
- WikiSQL (Zhong et al., 2017): NL-to-SQL ์ฟผ๋ฆฌ ๋ณํ.
- SAMSum (Gliwa et al., 2019): ๋ํ ์์ฝ(conversation summarization).
์ถ๊ฐ ์ ๋ณด
๋ฐ์ดํฐ์ ์ ๋ํ ์์ธํ ์ค๋ช ์ Appendix C๋ฅผ ์ฐธ์กฐํ์ญ์์ค. ๋ชจ๋ ์คํ์ NVIDIA Tesla V100 GPU๋ฅผ ์ฌ์ฉํ์ฌ ์ํํ์ต๋๋ค.
Baselines (๊ธฐ์ค์ )
๋ค์ํ ๊ธฐ์ค์ ๊ณผ ๋น๊ตํ๊ธฐ ์ํด, ์ด์ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ์ค์ ์ ๋ณต์ ํ๊ณ ๊ฐ๋ฅํ ๊ฒฝ์ฐ ๋ณด๊ณ ๋ ์์น๋ฅผ ์ฌ์ฌ์ฉํ์ต๋๋ค. ์ด๋ก ์ธํด ์ผ๋ถ ๊ธฐ์ค์ ์ ํน์ ์คํ์์๋ง ๋ํ๋ ์ ์์ต๋๋ค.
Fine-Tuning (FT)
- ์ค๋ช : ์ผ๋ฐ์ ์ธ ์ ์(adaptation) ์ ๊ทผ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น์ bias๋ก ์ด๊ธฐํํ๊ณ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฒฝ์ฌ ์ ๋ฐ์ดํธํฉ๋๋ค.
- ๋ณํ: ์๋ฅผ ๋ค์ด, GPT-2์์ Li & Liang (2021)์ด ๋ณด๊ณ ํ FTTop2๋ ๋ง์ง๋ง ๋ ๊ณ์ธต๋ง ์ ์์ํค๋ ๋ฐฉ์์
๋๋ค.
- ์ผ๋ถ ๊ณ์ธต๋ง ์ ๋ฐ์ดํธํ๊ณ ๋๋จธ์ง๋ ๊ณ ์ (freeze)ํ๋ ๊ฐ๋จํ ๋ณํ๋ ํฌํจํฉ๋๋ค.
1. Bias-only or BitFit
- ์ค๋ช : ์ด ๋ฐฉ๋ฒ์์๋ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณ ์ ํ ์ํ๋ก bias ๋ฒกํฐ๋ง ํ์ตํฉ๋๋ค.
- ๊ด๋ จ ์ฐ๊ตฌ: BitFit (Zaken et al., 2021)์์ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฐ๊ตฌํ์ต๋๋ค.
- ์ฅ์ : ๋งค์ฐ ์ ์ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ก ๊ฐ๋จํ ์ ์ฉ ๊ฐ๋ฅ.
- ๋จ์ : ์ฑ๋ฅ์ด ์ ํ์ ์ผ ์ ์์.
2. Prefix-embedding Tuning (PreEmbed)
- ์ค๋ช
: ์
๋ ฅ ํ ํฐ ์ฌ์ด์ ํน๋ณํ ํ์ต ๊ฐ๋ฅํ ํ ํฐ์ ์ฝ์
ํฉ๋๋ค.
- Prefixing: ํ๋กฌํํธ ์์ ์ฝ์ .
- Infixing: ํ๋กฌํํธ ๋ค์ ์ฝ์ .
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์ ์: โฃΘโฃ=dmodel×(lp+li),
- lp: prefix ํ ํฐ ์, li: infix ํ ํฐ ์.
- ์ฑ๋ฅ ์ํฅ: ํ ํฐ ๋ฐฐ์น ์์น์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์(Li & Liang, 2021).
3. Prefix-layer Tuning (PreLayer)
- ์ค๋ช : Prefix-embedding Tuning์ ํ์ฅํ์ผ๋ก, ํน๋ณํ ํ ํฐ์ ์๋ฒ ๋ฉ๋ง ํ์ตํ๋ ๋์ ๊ฐ Transformer ๋ ์ด์ด์์ ํ์ฑ๊ฐ(activations)์ ํ์ตํฉ๋๋ค.
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์ ์: โฃΘโฃ=L×dmodel×(lp+li),L: Transformer ๋ ์ด์ด ์.
- ํน์ง: ๋ ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ํ์ตํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง, ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐ.
4. Adapter Tuning
- ์ค๋ช
: Adapter Layers๋ฅผ Transformer ๋ชจ๋(self-attention ๋ฐ MLP) ์ฌ์ด์ ์ฝ์
ํ์ฌ ์ ์ํฉ๋๋ค.
- AdapterH (Houlsby et al., 2019): ๊ธฐ๋ณธ ์ค๊ณ. ๋ ๊ฐ์ fully connected layers์ ๋น์ ํ์ฑ์ ํฌํจ.
- AdapterL (Lin et al., 2020): MLP ๋ชจ๋ ๋ค์ LayerNorm ์ดํ์๋ง ์ด๋ํฐ๋ฅผ ์ ์ฉํ์ฌ ํจ์จ์ฑ์ ๋์.
- AdapterP (Pfeiffer et al., 2021): AdapterL๊ณผ ์ ์ฌํ ์ค๊ณ.
- AdapterD (Rücklé et al., 2020): ์ผ๋ถ ์ด๋ํฐ ๋ ์ด์ด๋ฅผ ์ญ์ ํ์ฌ ํจ์จ์ฑ์ ๋์.
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์ ์: โฃΘโฃ=LAdpt × (2 × dmodel × r + r + dmodel) + 2 × LLN × dmodel,
- LAdpt: ์ด๋ํฐ ๋ ์ด์ด ์
- LLN: ํ์ต ๊ฐ๋ฅํ LayerNorm ์.
5. LoRA (Low-Rank Adaptation)
- ์ค๋ช
: ๊ธฐ์กด์ ๊ฐ์ค์น ํ๋ ฌ๊ณผ ๋ณ๋ ฌ๋ก ์ ๋ญํฌ(rank decomposition) ํ๋ ฌ ์์ ์ถ๊ฐํ์ฌ ํ์ตํฉ๋๋ค.
- ๋๋ถ๋ถ์ ์คํ์์ Wq์ Wv์๋ง ์ ์ฉ(Section 4.2).
- ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์ ์: โฃΘโฃ=2×LLoRA×dmodel×r
- LLoRA: LoRA๋ฅผ ์ ์ฉํ ๊ฐ์ค์น ํ๋ ฌ์ ์.
RoBERTa Base/Large
RoBERTa(Liu et al., 2019)๋ BERT(Devlin et al., 2019a)์์ ์ ์๋ ์ฌ์ ํ์ต ๋ฐฉ์์ ์ต์ ํํ์ฌ, ๋ ๋ง์ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๊ฐํ์ง ์๊ณ ๋ ์์ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
์ต๊ทผ GLUE(Wang et al., 2019)์ ๊ฐ์ NLP ๋ฆฌ๋๋ณด๋์์ ๋ ํฐ ๋ชจ๋ธ๋ค์ด RoBERTa๋ฅผ ๋ฐ์ด๋์์ง๋ง, RoBERTa๋ ์ฌ์ ํ ํฌ๊ธฐ์ ๋นํด ๊ฒฝ์๋ ฅ ์๊ณ ์ค๋ฌด์๋ค์๊ฒ ์ธ๊ธฐ ์๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋๋ค.
- ์ค์ :
- ์ฐ๋ฆฌ๋ HuggingFace Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ(Wolf et al., 2020)์์ ์ ๊ณตํ๋ ์ฌ์ ํ์ต๋ RoBERTa base (125M)์ RoBERTa large (355M)๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
- GLUE ๋ฒค์น๋งํฌ ์์ ์์ ๋ค์ํ ํจ์จ์ ์ธ ์ ์ ๋ฐฉ๋ฒ์ ํ๊ฐํ์ต๋๋ค.
- ๋น๊ต:
- Houlsby et al. (2019)์ Pfeiffer et al. (2021)์ ์ค์ ์ ๋ณต์ ํ์ต๋๋ค.
- ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ค์ ๋ ๊ฐ์ง ์ค์ํ ๋ณ๊ฒฝ์ ์ ์ฉํ์ต๋๋ค:
- ๋ชจ๋ ์์ ์์ ๋์ผํ ๋ฐฐ์น ํฌ๊ธฐ์ 128์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ฌ์ฉํด adapter ๊ธฐ์ค์ ๊ณผ ์ผ์น์ํด.
- MRPC, RTE, STS-B ์์ ์์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ด๊ธฐํํ๋ฉฐ, MNLI์ ์ด๋ฏธ ์ ์๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์(fine-tuning ๊ธฐ์ค์ ๊ณผ ๋ค๋ฆ).
- ๊ฒฐ๊ณผ:
- ์ด ์ ํ๋ ์ค์ (Houlsby et al., 2019)์ ๋ฐ๋ฅด๋ ์คํ ๊ฒฐ๊ณผ๋ Table 2์ ์์ 3๊ฐ ์น์ ์ ํ์๋ฉ๋๋ค.
- ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์์ธํ ์ ๋ณด๋ Section D.1์ ์ฐธ์กฐํ์ญ์์ค.
DeBERTa XXL
DeBERTa(He et al., 2021)๋ BERT์ ์ต์ ๋ณํ์ผ๋ก, ํจ์ฌ ๋ ํฐ ๊ท๋ชจ๋ก ํ์ต๋์์ผ๋ฉฐ GLUE(Wang et al., 2019) ๋ฐ SuperGLUE(Wang et al., 2020)์ ๊ฐ์ ๋ฒค์น๋งํฌ์์ ๋งค์ฐ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
- ๋ชฉํ: LoRA๊ฐ GLUE ๋ฒค์น๋งํฌ์์ **DeBERTa XXL (1.5B)**์ ์์ ๋ฏธ์ธ ์กฐ์ (full fine-tuning) ์ฑ๋ฅ์ ํ์ ํ ์ ์๋์ง ํ๊ฐ.
- ๊ฒฐ๊ณผ:
- Table 2์ ํ๋จ ์น์ ์ ๊ฒฐ๊ณผ๊ฐ ํ์๋ฉ๋๋ค.
- ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์์ธํ ๋ด์ฉ์ Section D.2๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
GPT-2 Medium/Large
LoRA์ NLU์์์ ๊ฒฝ์๋ ฅ์ ์ ์ฆํ ํ, ์ฐ๋ฆฌ๋ LoRA๊ฐ NLG ๋ชจ๋ธ์์๋ ์ฌ์ ํ ์ฐ์๋ฅผ ์ ํ ์ ์๋์ง ํ๊ฐํ๊ณ ์ ํฉ๋๋ค. ์ด๋ฅผ ์ํด GPT-2 medium ๋ฐ large ๋ชจ๋ธ(Radford et al., b)์ ์คํ ๋์์ผ๋ก ์ผ์์ต๋๋ค.
- ์ค์ :
- Li & Liang (2021)์ ์ง์ ๋น๊ตํ ์ ์๋๋ก ์ค์ ์ ์ต๋ํ ๋์ผํ๊ฒ ์ ์งํ์ต๋๋ค.
- ๊ณต๊ฐ ์ ์ฝ์ผ๋ก ์ธํด ์ด ์น์ ์์๋ E2E NLG ์ฑ๋ฆฐ์ง์ ๊ฒฐ๊ณผ๋ง ์ ์ํฉ๋๋ค(Table 3).
- ์ถ๊ฐ ๊ฒฐ๊ณผ:
- WebNLG (Gardent et al., 2017) ๋ฐ DART (Nan et al., 2020)์ ๋ํ ๊ฒฐ๊ณผ๋ Section F.1์ ์ฐธ์กฐํ์ญ์์ค.
- ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ชฉ๋ก์ Section D.3์์ ํ์ธํ ์ ์์ต๋๋ค.
Scaling Up to GPT-3 175B (GPT-3 175B๋ก ํ์ฅ)
LoRA์ ์ต์ข ํ ์คํธ๋ก, 1750์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง GPT-3์ ์ ์ฉํ์ฌ ํ๊ฐํ์ต๋๋ค.
๋์ ํ์ต ๋น์ฉ ๋๋ฌธ์, ๊ฐ ์์ ์ ๋ํด ๋ฌด์์ ์ด๊ธฐํ(seed)๋ก ์ธํ ํ์ค ํธ์ฐจ์ ์ ํ์ ์ธ ๋ฒ์๋ง ๋ณด๊ณ ํ๋ฉฐ, ๋ชจ๋ ๊ฒฐ๊ณผ ํญ๋ชฉ๋ณ ํ์ค ํธ์ฐจ๋ฅผ ์ ๊ณตํ์ง๋ ์์ต๋๋ค.
Table 4์ ๋ํ๋ ๊ฒ์ฒ๋ผ, LoRA๋ ์ธ ๊ฐ์ง ๋ฐ์ดํฐ์ ๋ชจ๋์์ fine-tuning ๊ธฐ์ค์ ๊ณผ ๋๋ฑํ๊ฑฐ๋ ์ด๋ฅผ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
ํน์ง ๋ฐ ๊ด์ฐฐ
- ๋งค๊ฐ๋ณ์ ์ฆ๊ฐ์ ๋น์ ํ์ ์ฑ๋ฅ ๋ณํ:
- Figure 2์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, ๋ชจ๋ ๋ฐฉ๋ฒ์ด ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๊ฐ ์ฆ๊ฐํ ์๋ก ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ์๋๋๋ค.
- Prefix-embedding tuning: ํน๋ณ ํ ํฐ์ด 256๊ฐ๋ฅผ ์ด๊ณผํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์.
- Prefix-layer tuning: ํน๋ณ ํ ํฐ์ด 32๊ฐ๋ฅผ ์ด๊ณผํ๋ฉด ์ฑ๋ฅ์ด ํ๋ฝ.
- ์์ธ์ ๋ํ ๊ฐ์ค:
- ํน๋ณ ํ ํฐ์ด ๋ง์์ง์๋ก ์ ๋ ฅ ๋ถํฌ๊ฐ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๋ถํฌ์์ ๋ ๋ฉ์ด์ง๊ธฐ ๋๋ฌธ์ผ๋ก ์ถ์ ๋ฉ๋๋ค.
- ์ด ํ์์ Li & Liang (2021)์์๋ ์ ์ฌํ๊ฒ ๊ด์ฐฐ๋์์ต๋๋ค.
LoRA๋ ๋๊ท๋ชจ ๋ชจ๋ธ(GPT-3 175B)์์๋ ์์ ์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ํนํ ์ ์ ๋ฐ์ดํฐ์ ๋ค์ํ ์์ ํ๊ฒฝ์์์ ๊ฐ๋ ฅํ ์ ์๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
Understanding the Low-Rank Updates (์ ๋ญํฌ ์ ๋ฐ์ดํธ์ ์ดํด)
LoRA์ ์คํ์ ์ฑ๋ฅ์ ๊ธฐ๋ฐ์ผ๋ก, downstream task์์ ํ์ต๋ low-rank adaptation์ ํน์ฑ์ ์ค๋ช ํฉ๋๋ค. Low-rank ๊ตฌ์กฐ๋ ํ๋์จ์ด ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถฐ ์ฌ๋ฌ ์คํ์ ๋ณ๋ ฌ๋ก ์คํํ ์ ์๊ฒ ํ๋ฉฐ, ์ ๋ฐ์ดํธ๋ ๊ฐ์ค์น(โW)์ pre-trained ๊ฐ์ค์น(W) ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ ์ ํด์ํ ์ ์๋๋ก ๋์ต๋๋ค. ์ฐ๋ฆฌ๋ GPT-3 175B๋ฅผ ์ค์ฌ์ผ๋ก ์ฐ๊ตฌํ๋ฉฐ, ์ฌ๊ธฐ์ ํ์ต ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์๋ฅผ ์ต๋ 10,000๋ฐฐ ์ค์ด๋ฉด์๋ task performance๋ฅผ ์ ์งํ์ต๋๋ค.
๋ํ LoRA์ ์ฑ๋ฅ์ ์ดํดํ๊ธฐ ์ํด ๋ค์ ์ง๋ฌธ์ ๋ํด ์คํ์ ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค.
- Parameter budget constraint๊ฐ ์์ ๊ฒฝ์ฐ, pre-trained Transformer์ ์ด๋ค weight matrix์ LoRA๋ฅผ ์ ์ฉํด์ผ downstream performance๊ฐ ์ต๋ํ๋๋๊ฐ?
- Optimal adaptation matrix โW๋ ์ค์ ๋ก rank-deficientํ๊ฐ? ๊ทธ๋ ๋ค๋ฉด, ์ค์ฉ์ ์ผ๋ก ์ ํฉํ rank๋ ๋ฌด์์ธ๊ฐ?
- โW์ W ๊ฐ์ ๊ด๊ณ๋ ๋ฌด์์ธ๊ฐ?
- โW๋ W์ ์ผ๋ง๋ ๋์ correlation์ ๊ฐ์ง๋๊ฐ?
- โW๋ W์ ๋นํด ์ผ๋ง๋ ํฐ๊ฐ?
- Question (2)์ Question (3)์ ๋ํ ๋ต๋ณ์ pre-trained language model์ downstream task์ ์ฌ์ฉํ๋ ๊ทผ๋ณธ ์์น์ ์ดํดํ๋ ๋ฐ ์ค์ํ insight๋ฅผ ์ ๊ณตํฉ๋๋ค.
Transformer์ ์ด๋ค ๊ฐ์ค์น ํ๋ ฌ์ LoRA๋ฅผ ์ ์ฉํด์ผ ํ๋๊ฐ?
Parameter budget๊ฐ ์ ํ๋ ๊ฒฝ์ฐ, LoRA๋ฅผ ์ด๋ค weight type์ ์ ์ฉํด์ผ downstream task์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ์ป์ ์ ์์๊น์?
์ฐ๋ฆฌ๋ self-attention module์ weight matrices๋ง ๊ณ ๋ คํ์ต๋๋ค. GPT-3 175B์์ ์ฝ 18M trainable parameters(FP16 ๊ธฐ์ค ์ฝ 35MB)๋ฅผ ๊ธฐ์ค์ผ๋ก ์คํ์ ์ค๊ณํ์ต๋๋ค.
- r = 8: ํ๋์ attention weight type์ LoRA๋ฅผ ์ ์ฉ.
- r = 4: ๋ ๊ฐ์ง attention weight type์ LoRA๋ฅผ ์ ์ฉ.(์ด 96๊ฐ์ layers์์ ์คํ.)
๋ชจ๋ parameters๋ฅผ โWq ๋๋ โWk์ ์ง์ค์ํค๋ ๊ฒฝ์ฐ, ์ฑ๋ฅ์ด ์๋นํ ๋ฎ์์ก์ต๋๋ค. ๋ฐ๋ฉด, Wq์ Wv๋ฅผ ๋์์ ์ ์์ํค๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์์ต๋๋ค. ์ด๋ rank๊ฐ 4์ ๊ฐ์ด ์์ ๊ฐ์ผ๋ก๋ โW์์ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์บก์ฒํ ์ ์์์ ๋ํ๋ด๋ฉฐ, ๋จ์ผ weight ์ ํ์ ๋ ํฐ rank๋ฅผ ์ ์ฉํ๋ ๊ฒ๋ณด๋ค ์ฌ๋ฌ weight matrices๋ฅผ ์ ์์ํค๋ ๊ฒ์ด ๋ ๋ฐ๋์งํ๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
What is the Optimal Rank r for LoRA? (LoRA์ ์ ํฉํ ์ต์ ์ Rank r๋ ๋ฌด์์ธ๊ฐ?)
์ฐ๋ฆฌ๋ rank r๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์กฐ์ฌํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํฉ๋๋ค:
- {Wq,Wv}๋ฅผ ์ ์.
- {Wq,Wk,Wv,Wc}๋ฅผ ์ ์.
- ๋จ์ผ {Wq}๋ฅผ ์ ์.
Table 6์ ๊ฒฐ๊ณผ๋ ๋ค์์ ๋ณด์ฌ์ค๋๋ค:
- LoRA๋ ๋งค์ฐ ์์ rank r ๊ฐ์ผ๋ก๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ํนํ {Wq,Wv}๋ฅผ ์ ์ํ ๋, ๋จ์ผ {Wq}๋ง ์ ์ํ๋ ๊ฒฝ์ฐ๋ณด๋ค ๋ ํจ์จ์ ์ ๋๋ค.
- ์ด๋ update matrix ΔW๊ฐ ๋งค์ฐ ์์ "intrinsic rank"๋ฅผ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
Subspace Similarity Between Different r
์์ r๊ฐ์ผ๋ก LoRA๊ฐ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ ์ด์ ๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด, ์๋ก ๋ค๋ฅธ r๊ฐ์ ๋ฐ๋ฅธ subspace ๊ฐ์ ์ ์ฌ์ฑ์ ๋ถ์ํ์ต๋๋ค.
์๋ฅผ ๋ค์ด, rank r=8์์ ํ์ต๋ ํ๋ ฌ Ar=8 ๊ณผ rank r=64์์ ํ์ต๋ ํ๋ ฌ Ar=64๋ฅผ ๋น๊ตํฉ๋๋ค.
์ฐ๋ฆฌ๋ Singular Value Decomposition(SVD)์ ์ํํ์ฌ ๊ฐ ํ๋ ฌ์ right-singular unitary matrix UAr=8์ Ar=64๋ฅผ ์ป์ต๋๋ค.
Q. UAr=8์์ ์์ i๊ฐ์ singular vector๊ฐ ์์ฑํ๋ subspace๊ฐ, UAr=64์ ์์ j๊ฐ์ singular vector๊ฐ ์์ฑํ๋ subspace์ ์ผ๋ง๋ ํฌํจ๋๋๊ฐ?
Normalized Subspace Similarity (์ ๊ทํ๋ Subspace ์ ์ฌ์ฑ): ์ด ์ ์ฌ์ฑ์ ์ธก์ ํ๊ธฐ ์ํด Grassmann distance ๊ธฐ๋ฐ์ ์ ๊ทํ๋ subspace similarity๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Ui: UAr=8์์ ์์ i๊ฐ์ singular vector์ column์ผ๋ก ๊ตฌ์ฑ๋ matrix.
- Uj: UAr=64์์ ์์ j๊ฐ์ singular vector์ column์ผ๋ก ๊ตฌ์ฑ๋ matrix.
- ฯ ๊ฐ์ ๋ฒ์๋ [0,1]:
- 1: ๋ subspace๊ฐ ์์ ํ ๊ฒน์นจ.
- 0: ๋ subspace๊ฐ ์์ ํ ๋ถ๋ฆฌ๋จ.
์ค์ํ ๊ด์ฐฐ์ (Figure 3 ๋ถ์):
- Top Singular Vector์ ์ค๋ณต์ฑ:
- Ar=8๊ณผ Ar=64์์ top singular vector ๋ฐฉํฅ์ ํฌ๊ฒ ์ค๋ณต๋๋ฉฐ, ๋๋จธ์ง ๋ฐฉํฅ์ ๊ทธ๋ ์ง ์์ต๋๋ค.
- ํนํ, Ar=8์ ΔWv์ Ar=64์ ΔWv (๋๋ ΔWq)๋ ์ฐจ์ 1์ subspace๋ฅผ ๊ณต์ ํ๋ฉฐ, ์ ๊ทํ๋ ์ ์ฌ์ฑ ๊ฐ์ด 0.5 ์ด์์ ๋๋ค.
- ์ด๋ rank r=1์ด GPT-3์ downstream task์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ด์ ๋ฅผ ์ค๋ช ํฉ๋๋ค.
- Noise์ ์ ์ฉํ ๋ฐฉํฅ:
- Ar=8๊ณผ Ar=64 ๋ชจ๋ ๋์ผํ pre-trained ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋์์ผ๋ฏ๋ก, Figure 3์ Ar=8๊ณผ Ar=64์ top singular vector ๋ฐฉํฅ์ด ๊ฐ์ฅ ์ ์ฉํจ์ ๋ํ๋ ๋๋ค.
- ๋ฐ๋ฉด, ๋ค๋ฅธ ๋ฐฉํฅ์ ํ์ต ์ค ์ถ์ ๋ random noise๊ฐ ํฌํจ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
- ๋ฐ๋ผ์ adaptation matrix๋ ์ค์ ๋ก ๋งค์ฐ ๋ฎ์ rank๋ฅผ ๊ฐ์ง ์ ์์ต๋๋ค.
Rank r=64๋ก ํ์ต๋ ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ random seed ์คํ์์ ΔWq์ ΔWv์ ์ ๊ทํ๋ subspace similarity๋ฅผ ๋ถ์ํ์ต๋๋ค.
- ΔWq:
- ๋ ๋์ "intrinsic rank"๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ ์คํ ๊ฐ ๋ ๋ง์ ๊ณตํต singular value ๋ฐฉํฅ์ ํ์ตํ์ต๋๋ค.
- ์ด๋ Table 6์์ ๊ด์ฐฐ๋ ์คํ ๊ฒฐ๊ณผ์ ์ผ์นํฉ๋๋ค.
- ΔWv:
- ์๋์ ์ผ๋ก ๋ ๋ฎ์ intrinsic rank๋ฅผ ๋ณด์ด๋ฉฐ, ๊ณตํต singular value ๋ฐฉํฅ์ ์๊ฐ ์ ์์ต๋๋ค.
- ๋น๊ต:
- ๋ ๊ฐ์ random Gaussian matrices์์๋ ๊ณตํต singular value ๋ฐฉํฅ์ด ์ ํ ๊ณต์ ๋์ง ์์์ต๋๋ค.
How Does the Adaptation Matrix ΔWCompare to W? (W์ W์ ๊ด๊ณ ๋ถ์)
์ฐ๋ฆฌ๋ ΔW์ W๊ฐ์ ๊ด๊ณ๋ฅผ ๋ ์์ธํ ์กฐ์ฌํฉ๋๋ค.
์ฃผ์ ์ง๋ฌธ:
- ΔW๋ W์ ๋์ ์๊ด์ฑ์ ๊ฐ์ง๋๊ฐ? (์ฆ, ΔW๋ ์ฃผ๋ก W์ ์์ singular directions์ ํฌํจ๋๋๊ฐ?)
- ΔW๋ ํฌ๊ธฐ ์ธก๋ฉด์์ W์ ํด๋น ๋ฐฉํฅ๊ณผ ๋น๊ตํ์ฌ ์ผ๋ง๋ "ํฐ๊ฐ"?
์ด ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ pre-trained language model์ ์ ์ ๋ฉ์ปค๋์ฆ์ ์ดํดํ๋ ๋ฐ ์ค์ํ ๋จ์๋ฅผ ์ ๊ณตํฉ๋๋ค.
- Projection:
- W๋ฅผ ΔW์ r-์ฐจ์ subspace์ ํฌ์.
- ์ด๋ฅผ ์ํด UโคWVโค๋ฅผ ๊ณ์ฐ, ์ฌ๊ธฐ์ U/V๋ ΔW์ ์ข/์ฐ singular vector matrix.
- Frobenius Norm ๋น๊ต:
- โฅUโคWVโคโฅF์ โฅWโฅF์ ๊ฐ์ ๋น๊ต.
- ๋น๊ต๋ฅผ ์ํด U,V๋ฅผ W์ ์์ r-singular vectors ๋๋ random matrix๋ก ๋์ฒดํ์ฌ ๋์ผํ ๊ณ์ฐ์ ์ํ.
Table 7 ๋ถ์ ๊ฒฐ๊ณผ
- ΔW์ W์ ์๊ด์ฑ: ΔW๋ random matrix๋ณด๋ค W์ ๋ ๋์ ์๊ด์ฑ์ ๊ฐ์ง๋ฉฐ, ์ด๋ ΔW๊ฐ W์ ์ด๋ฏธ ์กด์ฌํ๋ ์ผ๋ถ ํน์ง์ ์ฆํญ(amplify)ํ๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค.
- ΔW\์ ๋ ํนํ ๋ฐฉํฅ: ΔW๋ WW ์์ singular directions๋ฅผ ๋ฐ๋ณตํ์ง ์๊ณ , W์์ ๋ ๊ฐ์กฐ๋ ๋ฐฉํฅ์ ์ฆํญํฉ๋๋ค.
- ์ฆํญ ๊ณ์: r=4์์ ์ฆํญ ๊ณ์๋ ์ฝ 21.5≈6.91/0.32๋ก ๋งค์ฐ ํฝ๋๋ค. r=64์์ ์ฆํญ ๊ณ์๊ฐ ๋ ์์ต๋๋ค.
- ์ถ๊ฐ ์๊ฐํ: Wq์ ์์ singular directions๋ฅผ ๋ ํฌํจํ ์๋ก ์๊ด์ฑ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์๊ฐํํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
Low-rank adaptation matrix๋ ์ผ๋ฐ์ ์ธ ์ฌ์ ํ์ต ๋ชจ๋ธ์์ ํ์ต๋์์ง๋ง ๊ฐ์กฐ๋์ง ์์ ์ค์ํ ํน์ง์ ํน์ downstream task์ ๋ง๊ฒ ์ฆํญํ๋ ์ญํ ์ ํฉ๋๋ค.
Conclusion and Future Work (๊ฒฐ๋ก ๋ฐ ๋ฏธ๋ ์์ )
๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ์ fine-tuningํ๋ ๊ฒ์ ํ์ํ ํ๋์จ์ด์ ๋ค์ํ ์์ ์ ๋ํ ๋ ๋ฆฝ ์ธ์คํด์ค๋ฅผ ํธ์คํ ํ๋ ๋ฐ ๋๋ ์ ์ฅ/์ ํ ๋น์ฉ ์ธก๋ฉด์์ ๋งค์ฐ ๋น์ธ๊ณ ๋นํจ์จ์ ์ ๋๋ค. ์ฐ๋ฆฌ๋ LoRA๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ๋์ ๋ชจ๋ธ ํ์ง์ ์ ์งํ๋ฉด์๋ ์ถ๋ก ์ง์ฐ์ ์ด๋ํ์ง ์์ผ๋ฉฐ ์ ๋ ฅ ์ํ์ค ๊ธธ์ด๋ฅผ ์ค์ด์ง ์๋ ํจ์จ์ ์ธ ์ ์ ์ ๋ต์ ๋๋ค. ํนํ, ๋๋ถ๋ถ์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์ ํจ์ผ๋ก์จ ์๋น์ค๋ก ๋ฐฐํฌ๋ ๋ ๋น ๋ฅธ ์์ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ฐ๋ฆฌ๋ Transformer ์ธ์ด ๋ชจ๋ธ์ ์ด์ ์ ๋ง์ท์ง๋ง, ์ ์๋ ์์น์ dense layers๋ฅผ ํฌํจํ ๋ชจ๋ ์ ๊ฒฝ๋ง์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ์ฌ๋ฌ ๋ฐฉํฅ์ด ์กด์ฌํฉ๋๋ค:
- LoRA๋ ๋ค๋ฅธ ํจ์จ์ ์ธ ์ ์ ๋ฐฉ๋ฒ๊ณผ ๊ฒฐํฉ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํธ ๋ณด์์ ์ธ ๊ฐ์ ์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- Fine-tuning ๋๋ LoRA์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ ํ ๋ช ํํ์ง ์์ต๋๋ค. ์ฌ์ ํ์ต ์ค ํ์ต๋ ํน์ง์ ์ด๋ป๊ฒ ๋ณํ๋์ด downstream task์์ ์ข์ ์ฑ๋ฅ์ ๋ด๋๊ฐ? LoRA๋ full fine-tuning๋ณด๋ค ์ด๋ฅผ ๋ ๋ช ํํ ์ค๋ช ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ฐ๋ฆฌ๋ ๋๋ถ๋ถ ํด๋ฆฌ์คํฑ์ ์์กดํด LoRA๋ฅผ ์ ์ฉํ weight matrices๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ฅผ ๋ ์ฒด๊ณ์ ์ผ๋ก ์ํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์์๊น์?
- ๋ง์ง๋ง์ผ๋ก, ΔW์ rank-deficiency๋ W ์ญ์ rank-deficientํ ์ ์์์ ์์ฌํ๋ฉฐ, ์ด๋ ๋ฏธ๋ ์ฐ๊ตฌ์ ์๊ฐ์ ์ ๊ณตํ ์ ์์ต๋๋ค.